Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

Ling-2.6-flash 2.9

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#102	Gemma 4 26B A4B none	Google	6.2	6.0	1/3	744ms
#90	Gemini 3.1 Flash Lite none	Google	6.3	6.4	1/3	720ms
#100	Grok Build 0.1 none	X AI	6.4	6.0	1/3	9.55s
#122	GLM 4.7 Flash none	Z.ai	6.4	5.5	1/3	1.20s
#51	Mimo V2 PRO medium	Xiaomi	6.4	7.4	1/3	5.08s
#85	Gemma 4 31B none	Google	6.5	6.5	1/3	4.23s
#43	MiMo-V2.5-Pro medium	Xiaomi	6.7	7.5	1/3	5.31s
#84	Grok 4.20 Multi Agent Beta medium	X AI	6.7	6.6	1/3	5.19s
#114	Qwen3.5 Plus 2026-04-20 none	Qwen	6.7	5.7	1/3	1.97s
#115	Qwen3.5-27B none	Qwen	6.7	5.7	1/3	1.38s
#123	MiMo-V2.5-Pro none	Xiaomi	6.7	5.5	1/3	1.30s
#72	DeepSeek V3.2 medium	DeepSeek	7.0	7.0	1/3	37.7s
#42	GPT-5.2 medium	OpenAI	7.5	7.5	2/3	5.80s
#44	Gemini 3.1 Flash Lite medium	Google	7.6	7.5	2/3	1.95s
#113	DeepSeek V4 Pro none	DeepSeek	7.6	5.7	2/3	16.0s

Rätsellösen-Ranking

Top-Modelle nach Rätsellösen-Score

Rätsellösen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)