Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#69	Claude Opus 4.6 medium	Anthropic	7.7	7.0	2/3	4.71s
#73	Seed-2.0-Mini medium	Bytedance Seed	8.2	6.9	2/3	31.8s
#77	Claude Sonnet 4.6 none	Anthropic	7.7	6.8	2/3	2.53s
#78	Qwen3.6 27B medium	Qwen	7.7	6.8	2/3	61.1s
#82	Hy3 preview high	Tencent	7.7	6.6	2/3	27.9s
#88	Qwen3.7 Plus none	Qwen	7.7	6.4	2/3	1.71s
#91	GPT-5.5 none	OpenAI	7.7	6.4	2/3	1.29s
#95	Qwen3.5 Plus 2026-02-15 none	Qwen	7.7	6.3	2/3	2.71s
#96	Ring-2.6-1T none	Inclusionai	7.7	6.2	2/3	31.5s
#97	Gemini 2.5 Flash none	Google	7.7	6.2	2/3	604ms
#98	GLM 5 none	Z.ai	7.7	6.1	2/3	1.91s
#106	Grok 4.20 Beta none	X AI	7.7	5.8	2/3	586ms
#112	GLM 5.1 none	Z.ai	7.7	5.7	2/3	1.45s
#113	DeepSeek V4 Pro none	DeepSeek	7.6	5.7	2/3	16.0s
#133	DeepSeek V3.2 none	DeepSeek	7.6	5.2	2/3	6.91s

Rätsellösen-Ranking

Top-Modelle nach Rätsellösen-Score

Rätsellösen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)