Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.8	3/3	4.05s
#2	Gemini 3.5 Flash high	Google	10.0	9.6	3/3	3.23s
#3	Gemini 3.5 Flash low	Google	10.0	9.4	3/3	2.35s
#4	Gemini 3.1 Pro Preview medium	Google	10.0	9.4	3/3	6.90s
#5	Qwen3.7 Max medium	Qwen	10.0	9.1	3/3	8.84s
#6	GPT-5.5 low	OpenAI	10.0	9.0	3/3	4.74s
#8	Claude Opus 4.7 none	Anthropic	10.0	8.9	3/3	2.46s
#9	GPT-5.5 medium	OpenAI	10.0	8.8	3/3	6.76s
#10	Claude Opus 4.8 medium	Anthropic	10.0	8.7	3/3	3.95s
#11	Claude Opus 4.7 medium	Anthropic	10.0	8.7	3/3	2.43s
#13	Grok 4.20 Beta medium	X AI	10.0	8.5	3/3	3.52s
#14	Qwen3.6 Max Preview medium	Qwen	10.0	8.5	3/3	24.3s
#16	Gemini 3 Flash Preview low	Google	10.0	8.4	3/3	5.77s
#17	GLM 5 medium	Z.ai	10.0	8.3	3/3	11.3s
#18	Qwen3.7 Plus medium	Qwen	10.0	8.2	3/3	16.4s

Rätsellösen-Ranking

Top-Modelle nach Rätsellösen-Score

Rätsellösen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)