Eval-Suites

Community-Benchmark-Suites zur Bewertung lokaler LLM-Qualität. Reiche Ergebnisse über die API ein.

Massive Multitask Language Understanding via EleutherAI lm-evaluation-harness task mmlu, 5-shot, exact-match/accuracy style scoring.