評測套件
用於評估本地LLM品質的社群基準測試套件。透過API提交結果。
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
reasoning1 筆記錄
官方
v1.0 · LM-Eval run
reasoning0 筆記錄
官方
v1.0 · LM-Eval run
reasoning1 筆記錄
官方
v1.0 · Custom server-side
reasoning3 筆記錄