Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#120	Mimo V2 PRO none	Xiaomi	6.0	5.6	1/3	1.61s
#87	Gemini 3.1 Flash Lite minimal	Google	6.0	6.4	1/3	2.15s
#38	Grok 4.3 medium	X AI	5.9	7.6	1/3	22.5s
#75	Ring-2.6-1T medium	Inclusionai	5.9	6.9	1/3	20.7s
#80	Mimo V2 Omni medium	Xiaomi	5.9	6.7	1/3	2.38s
#103	DeepSeek V4 Pro high	DeepSeek	5.9	6.0	1/3	34.8s
#104	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.9	6.0	1/3	1.06s
#130	MiniMax M2.7 medium	Minimax	5.9	5.3	1/3	24.9s
#116	Hunter Alpha none	OpenRouter	5.8	5.7	1/3	3.71s
#53	Gemini 3.1 Flash Lite high	Google	5.7	7.3	1/3	50.8s
#22	Step 3.7 Flash medium	Stepfun	5.7	8.0	1/3	6.19s
#54	GPT-5 Mini medium	OpenAI	5.6	7.3	1/3	15.2s
#125	GPT-5.4 none	OpenAI	5.6	5.5	1/3	1.44s
#57	Step 3.7 Flash low	Stepfun	5.5	7.3	1/3	1.84s
#141	Nemotron 3 Super none	NVIDIA	5.5	4.9	1/3	2.36s

Rätsellösen-Ranking