Ranking für Rätsellösen x Falsche Antwort

Sieh, welche KI-Modelle bei Rätsellösen am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

201

Am stärksten betroffenes Modell

Qwen3.5-Flash 3

Fehlergründe

Falsche Antwort201 Anweisungen nicht befolgt90 API-Fehler12 Zusätzliche Formatierung8 Zeitüberschreitung5 Keine Antwort3

Kategorien

Domänenspezifisch412 Anti-KI-Tricks293 Programmierung252 Rätsellösen201 Allgemeinwissen168 Kombiniert68 Befolgung von Anweisungen61 Allgemeine Intelligenz59 Datenanalyse und -extraktion41 Werkzeugaufrufe3

142/142

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#67	Step 3.7 Flash low	Stepfun	2	5.5	$0.454	1/3	1.84s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.454 Antwortzeit (Durchschnitt) 1.84s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	2	5.9	$0.467	1/3	3.20s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.467 Antwortzeit (Durchschnitt) 3.20s
#86	Step 3.7 Flash high	Stepfun	2	5.3	$1.207	1/3	10.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.207 Antwortzeit (Durchschnitt) 10.2s
#91	LongCat 2.0 low	Meituan	2	3.1	$0.391	0/3	8.15s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 8.15s
#97	LongCat 2.0 high	Meituan	2	3.1	$0.469	0/3	9.18s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.469 Antwortzeit (Durchschnitt) 9.18s
#102	Laguna XS 2.1 medium	Poolside	2	5.3	$0.068	1/3	3.43s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 3.43s
#111	LongCat 2.0 none	Meituan	2	4.0	$0.044	0/3	2.74s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 2.74s
#116	Seed-2.0-Lite none	Bytedance Seed	2	5.3	$0.066	1/3	2.78s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.066 Antwortzeit (Durchschnitt) 2.78s
#124	Qwen3.6 Flash none	Qwen	2	3.5	$0.062	0/3	1.21s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.062 Antwortzeit (Durchschnitt) 1.21s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.7	$0.122	1/3	1.97s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.122 Antwortzeit (Durchschnitt) 1.97s
#127	Qwen3.5-35B-A3B none	Qwen	2	3.7	$0.106	0/3	1.35s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 1.35s
#132	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	1.23s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.349 Antwortzeit (Durchschnitt) 1.23s
#138	Kimi K2.6 none	Moonshot AI	2	3.1	$0.184	0/3	1.40s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.184 Antwortzeit (Durchschnitt) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	2	3.0	$0.050	0/3	3.15s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.050 Antwortzeit (Durchschnitt) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	2	3.8	$0.247	0/3	1.00s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.247 Antwortzeit (Durchschnitt) 1.00s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Rätsellösen: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten