Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

GPT-5.4 Nano 4.1

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#5	Qwen3.7 Max medium	Qwen	10.0	9.1	3/3	8.84s
#6	GPT-5.5 low	OpenAI	10.0	9.0	3/3	4.74s
#8	Claude Opus 4.7 none	Anthropic	10.0	8.9	3/3	2.46s
#9	GPT-5.5 medium	OpenAI	10.0	8.8	3/3	6.76s
#10	Claude Opus 4.8 medium	Anthropic	10.0	8.7	3/3	3.95s
#11	Claude Opus 4.7 medium	Anthropic	10.0	8.7	3/3	2.43s
#13	Grok 4.20 Beta medium	X AI	10.0	8.5	3/3	3.52s
#14	Qwen3.6 Max Preview medium	Qwen	10.0	8.5	3/3	24.3s
#16	Gemini 3 Flash Preview low	Google	10.0	8.4	3/3	5.77s
#17	GLM 5 medium	Z.ai	10.0	8.3	3/3	11.3s
#18	Qwen3.7 Plus medium	Qwen	10.0	8.2	3/3	16.4s
#20	Gemini 3.5 Flash none	Google	10.0	8.1	3/3	3.13s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.9	3/3	32.5s
#26	Qwen3.6 Plus medium	Qwen	10.0	7.9	3/3	6.34s
#27	Gemma 4 31B medium	Google	9.9	7.8	3/3	26.9s

←

1 9 10 11

→

Rätsellösen-Ranking

Top-Modelle nach Rätsellösen-Score

Rätsellösen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)