Ranking für Anti-KI-Tricks x Falsche Antwort

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

293

Am stärksten betroffenes Modell

Seed-2.0-Lite 4

Fehlergründe

Falsche Antwort293 Anweisungen nicht befolgt33 Zusätzliche Formatierung20 API-Fehler14 Keine Antwort4 Zeitüberschreitung4

Kategorien

Domänenspezifisch421 Anti-KI-Tricks293 Programmierung259 Rätsellösen204 Allgemeinwissen172 Kombiniert69 Allgemeine Intelligenz62 Befolgung von Anweisungen61 Datenanalyse und -extraktion41 Werkzeugaufrufe3

140/140

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	5.3	$0.067	1/4	2.68s
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.067 Antwortzeit (Durchschnitt) 2.68s
#193	Qwen3 Coder Next medium	Qwen	3	3.5	$0.032	0/4	8.64s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.032 Antwortzeit (Durchschnitt) 8.64s
#198	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 705ms
#203	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 501ms
#209	Grok 4.1 Fast none	X AI	3	3.2	$0.008	0/4	1.07s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.07s
#216	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 471ms
#27	Muse Spark 1.1 low	Meta	2	7.9	$0.647	2/4	4.36s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.647 Antwortzeit (Durchschnitt) 4.36s
#50	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.200 Antwortzeit (Durchschnitt) 25.7s
#51	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/4	14.9s
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.286 Antwortzeit (Durchschnitt) 14.9s
#56	Kimi K2.7 Code medium	Moonshot AI	2	7.3	$0.740	2/4	11.6s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.740 Antwortzeit (Durchschnitt) 11.6s
#63	Qwen3.7 Max none	Qwen	2	6.5	$0.197	2/4	1.08s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.197 Antwortzeit (Durchschnitt) 1.08s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	2	6.9	$0.387	2/4	4.20s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.387 Antwortzeit (Durchschnitt) 4.20s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2	7.0	$0.482	2/4	3.17s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.482 Antwortzeit (Durchschnitt) 3.17s
#75	Qwen3.7 Plus none	Qwen	2	6.5	$0.106	2/4	1.38s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 1.38s
#86	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 4.02s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Anti-KI-Tricks: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten