Ranking für Rätsellösen x Falsche Antwort

Sieh, welche KI-Modelle bei Rätsellösen am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

204

Am stärksten betroffenes Modell

Qwen3.5-Flash 3

Fehlergründe

Falsche Antwort204 Anweisungen nicht befolgt90 API-Fehler12 Zusätzliche Formatierung8 Zeitüberschreitung5 Keine Antwort3

Kategorien

Domänenspezifisch421 Anti-KI-Tricks293 Programmierung259 Rätsellösen204 Allgemeinwissen172 Kombiniert69 Allgemeine Intelligenz62 Befolgung von Anweisungen61 Datenanalyse und -extraktion41 Werkzeugaufrufe3

145/145

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#77	Grok 4.3 medium	X AI	1	5.9	$0.779	1/3	22.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 22.5s
#78	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.535 Antwortzeit (Durchschnitt) 31.6s
#79	Grok 4.20 medium	X AI	1	7.7	$0.777	2/3	6.22s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.777 Antwortzeit (Durchschnitt) 6.22s
#80	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.600 Antwortzeit (Durchschnitt) 43.2s
#82	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.093 Antwortzeit (Durchschnitt) 949ms
#84	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.101 Antwortzeit (Durchschnitt) 31.8s
#87	GPT-5.6 Sol none	OpenAI	1	7.7	$0.524	2/3	1.49s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.524 Antwortzeit (Durchschnitt) 1.49s
#88	MiMo-V2.5-Pro medium	Xiaomi	1	6.7	$0.187	1/3	5.31s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 5.31s
#91	GPT-5.5 none	OpenAI	1	7.7	$0.544	2/3	1.29s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.544 Antwortzeit (Durchschnitt) 1.29s
#93	Gemini 3 Flash Preview none	Google	1	7.7	$0.085	2/3	1.05s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.085 Antwortzeit (Durchschnitt) 1.05s
#94	Qwen3.6 35B A3B medium	Qwen	1	8.0	$0.746	2/3	5.95s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.746 Antwortzeit (Durchschnitt) 5.95s
#95	Gemini 3.5 Flash-Lite low	Google	1	7.8	$0.145	2/3	1.22s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.145 Antwortzeit (Durchschnitt) 1.22s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	1	8.2	$0.476	2/3	3.03s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.476 Antwortzeit (Durchschnitt) 3.03s
#98	GLM 5V Turbo medium	Z.ai	1	7.7	$0.457	2/3	10.2s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.457 Antwortzeit (Durchschnitt) 10.2s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Rätsellösen: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten