Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#42	GPT-5.2 medium	OpenAI	7.5	7.5	2/3	5.80s
#44	Gemini 3.1 Flash Lite medium	Google	7.6	7.5	2/3	1.95s
#45	GPT-5.4 Mini medium	OpenAI	7.8	7.5	2/3	4.37s
#46	Qwen3.6 35B A3B medium	Qwen	8.0	7.4	2/3	5.95s
#47	Grok Build 0.1 medium	X AI	7.7	7.4	2/3	18.3s
#48	Gemini 3 Flash Preview none	Google	7.7	7.4	2/3	1.05s
#49	Qwen3.5-Flash medium	Qwen	8.2	7.4	2/3	27.6s
#55	GLM 5.1 medium	Z.ai	8.2	7.3	2/3	31.6s
#56	MiMo-V2.5 medium	Xiaomi	8.2	7.3	2/3	20.3s
#59	GLM 5V Turbo medium	Z.ai	7.7	7.2	2/3	10.2s
#64	MiMo-V2-Flash medium	Xiaomi	7.7	7.2	2/3	3.87s
#65	Grok 4.20 medium	X AI	7.7	7.1	2/3	6.22s
#66	Qwen3.5-35B-A3B medium	Qwen	8.2	7.1	2/3	33.1s
#67	MiniMax M3 medium	Minimax	7.9	7.1	2/3	49.9s
#68	Claude Opus 4.8 none	Anthropic	7.7	7.0	2/3	2.74s

Rätsellösen-Ranking

Top-Modelle nach Rätsellösen-Score

Rätsellösen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)