ローカルLLMの品質を評価するためのコミュニティベンチマークスイート。APIから結果を送信してください。
Massive Multitask Language Understanding via EleutherAI lm-evaluation-harness task mmlu, 5-shot, exact-match/accuracy style scoring.