Local Reasoning Mini

Official

A lightweight 10-question sanity check for locally served models. Designed for the trusted /api/evals/execute path.

Category: reasoningRunner: CustomVersion: v1.0Submitted by: Lottolabs

Eval Details

Scoring

Exact Match

Aggregation

Mean

Direction

Higher is better

Tasks

2 tasks

TopP: 1Temperature: 0

Task	Dataset	Weight	Shots	Max Tokens
Basic Math basic_math	5 inline items	0.5	Default	16
Basic Logic basic_logic	5 inline items	0.5	Default	8

#	Model	Score	Quant	Hardware
	Qwen3.6-27B Qwen	100.0%	IQ4_NL	NVIDIA GeForce RTX 3090

basic_logic

100.0%

— · 0 samples

basic_math

100.0%

— · 0 samples