Ranking für Anti-KI-Tricks x Falsche Antwort

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

293

Am stärksten betroffenes Modell

Seed-2.0-Lite 4

Fehlergründe

Falsche Antwort293 Anweisungen nicht befolgt33 Zusätzliche Formatierung20 API-Fehler14 Keine Antwort4 Zeitüberschreitung4

Kategorien

Domänenspezifisch412 Anti-KI-Tricks293 Programmierung252 Rätsellösen201 Allgemeinwissen168 Kombiniert68 Befolgung von Anweisungen61 Allgemeine Intelligenz59 Datenanalyse und -extraktion41 Werkzeugaufrufe3

140/140

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#116	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.066 Antwortzeit (Durchschnitt) 2.43s
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 582ms
#124	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.062 Antwortzeit (Durchschnitt) 1.63s
#125	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.073 Antwortzeit (Durchschnitt) 1.32s
#127	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 1.43s
#129	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 2.35s
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 929ms
#139	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.397 Antwortzeit (Durchschnitt) 1.21s
#147	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 1.80s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 20.2s
#151	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.164 Antwortzeit (Durchschnitt) 2.11s
#152	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 2.83s
#155	Kimi K2.5 none	Moonshot AI	4	3.6	$0.127	0/4	6.24s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.127 Antwortzeit (Durchschnitt) 6.24s
#161	Qwen3.6 35B A3B none	Qwen	4	3.6	$0.061	0/4	2.10s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.061 Antwortzeit (Durchschnitt) 2.10s
#162	Ling-2.6-1T none	Inclusionai	4	3.4	$0.016	0/4	6.55s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 6.55s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Anti-KI-Tricks: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten