评测套件
用于评估本地LLM质量的社区基准测试套件。通过API提交结果。
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
math0 条记录
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
coding0 条记录
官方
v1.0 · LM-Eval run
coding0 条记录
官方
v1.0 · LM-Eval run
math3 条记录
官方
v1.0 · LM-Eval run
truthfulness0 条记录
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
reasoning1 条记录
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
reasoning1 条记录
v1.0 · LM-Eval run
coding0 条记录
v1.0 · LM-Eval run
knowledge0 条记录
v1.0 · LM-Eval run
knowledge1 条记录