評測套件
用於評估本地LLM品質的社群基準測試套件。透過API提交結果。
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
math0 筆記錄
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
coding0 筆記錄
官方
v1.0 · LM-Eval run
coding0 筆記錄
官方
v1.0 · LM-Eval run
math3 筆記錄
官方
v1.0 · LM-Eval run
truthfulness0 筆記錄
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
reasoning1 筆記錄
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
reasoning1 筆記錄