Ranking für Rätsellösen x Falsche Antwort

Sieh, welche KI-Modelle bei Rätsellösen am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

204

Am stärksten betroffenes Modell

Qwen3.6 27B 1

Fehlergründe

Falsche Antwort204 Anweisungen nicht befolgt90 API-Fehler12 Zusätzliche Formatierung8 Zeitüberschreitung5 Keine Antwort3

Kategorien

Domänenspezifisch421 Anti-KI-Tricks293 Programmierung259 Rätsellösen204 Allgemeinwissen172 Kombiniert69 Allgemeine Intelligenz62 Befolgung von Anweisungen61 Datenanalyse und -extraktion41 Werkzeugaufrufe3

145/145

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#105	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 61.1s
#50	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.200 Antwortzeit (Durchschnitt) 56.8s
#51	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.286 Antwortzeit (Durchschnitt) 49.9s
#81	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.600 Antwortzeit (Durchschnitt) 43.2s
#56	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.740	1/3	41.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.740 Antwortzeit (Durchschnitt) 41.0s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 37.7s
#35	GLM 5.2 high	Z.ai	1	6.0	$0.817	1/3	33.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.817 Antwortzeit (Durchschnitt) 33.7s
#210	Qwen3.5-9B medium	Qwen	1	3.0	$0.036	0/3	32.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.036 Antwortzeit (Durchschnitt) 32.3s
#84	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.101 Antwortzeit (Durchschnitt) 31.8s
#78	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.535 Antwortzeit (Durchschnitt) 31.6s
#72	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.036 Antwortzeit (Durchschnitt) 25.1s
#178	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 24.9s
#177	North Mini Code none	Cohere	1	3.5	$0.000	0/3	24.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 24.4s
#172	Qwen3 Coder Next none	Qwen	3	3.0	$0.025	0/3	24.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 24.3s
#156	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.042	0/3	23.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.042 Antwortzeit (Durchschnitt) 23.7s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Rätsellösen: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten