Modell-Ranking für Rätsellösen

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Rätsellösen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Rätsellösen-Score

6.7

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort147 Mit Fehlergrund Anweisungen nicht befolgt78 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Zeitüberschreitung5 Mit Fehlergrund Zusätzliche Formatierung5 Mit Fehlergrund Keine Antwort1

Rang	Modell	Unternehmen	Rätsellösen-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#80	Mimo V2 Omni medium	Xiaomi	5.9	6.7	1/3	2.38s
#81	Mercury 2 medium	Inception	5.4	6.6	1/3	949ms
#84	Grok 4.20 Multi Agent Beta medium	X AI	6.7	6.6	1/3	5.19s
#85	Gemma 4 31B none	Google	6.5	6.5	1/3	4.23s
#86	Grok 4.1 Fast medium	X AI	5.3	6.5	1/3	7.40s
#87	Gemini 3.1 Flash Lite minimal	Google	6.0	6.4	1/3	2.15s
#89	Hy3 preview low	Tencent	5.3	6.4	1/3	7.51s
#90	Gemini 3.1 Flash Lite none	Google	6.3	6.4	1/3	720ms
#92	Laguna M.1 medium	Poolside	5.3	6.4	1/3	10.2s
#93	Qwen3.6 Plus Preview medium	Qwen	5.3	6.3	1/3	7.52s
#94	GPT-5 Nano medium	OpenAI	5.3	6.3	1/3	20.6s
#99	gpt-oss-120b medium	OpenAI	5.3	6.1	1/3	21.7s
#100	Grok Build 0.1 none	X AI	6.4	6.0	1/3	9.55s
#102	Gemma 4 26B A4B none	Google	6.2	6.0	1/3	744ms
#103	DeepSeek V4 Pro high	DeepSeek	5.9	6.0	1/3	34.8s

Rätsellösen-Ranking

Top-Modelle nach Rätsellösen-Score

Rätsellösen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)