Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

Mistral Small 4 3.1

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#94	GPT-5 Nano medium	OpenAI	5.3	6.3	1/3	20.6s
#75	Ring-2.6-1T medium	Inclusionai	5.9	6.9	1/3	20.7s
#99	gpt-oss-120b medium	OpenAI	5.3	6.1	1/3	21.7s
#38	Grok 4.3 medium	X AI	5.9	7.6	1/3	22.5s
#139	DeepSeek V4 Flash none	DeepSeek	3.1	5.0	0/3	23.7s
#14	Qwen3.6 Max Preview medium	Qwen	10.0	8.5	3/3	24.3s
#140	Qwen3 Coder Next none	Qwen	3.0	4.9	0/3	24.3s
#130	MiniMax M2.7 medium	Minimax	5.9	5.3	1/3	24.9s
#60	Kimi K2.6 medium	Moonshot AI	6.0	7.2	1/3	25.1s
#31	DeepSeek V4 Flash high	DeepSeek	8.2	7.7	2/3	26.1s
#27	Gemma 4 31B medium	Google	9.9	7.8	3/3	26.9s
#49	Qwen3.5-Flash medium	Qwen	8.2	7.4	2/3	27.6s
#82	Hy3 preview high	Tencent	7.7	6.6	2/3	27.9s
#96	Ring-2.6-1T none	Inclusionai	7.7	6.2	2/3	31.5s
#55	GLM 5.1 medium	Z.ai	8.2	7.3	2/3	31.6s

←

1 9 10 11

→

Rätsellösen-Ranking

Top-Modelle nach Rätsellösen-Score

Rätsellösen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)