Ranking für Anti-KI-Tricks x Falsche Antwort

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

293

Am stärksten betroffenes Modell

DeepSeek V4 Pro 2

Fehlergründe

Falsche Antwort293 Anweisungen nicht befolgt33 Zusätzliche Formatierung20 API-Fehler14 Keine Antwort4 Zeitüberschreitung4

Kategorien

Domänenspezifisch412 Anti-KI-Tricks293 Programmierung252 Rätsellösen201 Allgemeinwissen168 Kombiniert68 Befolgung von Anweisungen61 Allgemeine Intelligenz59 Datenanalyse und -extraktion41 Werkzeugaufrufe3

140/140

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#82	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 4.02s
#116	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.066 Antwortzeit (Durchschnitt) 2.43s
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 582ms
#124	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.062 Antwortzeit (Durchschnitt) 1.63s
#125	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.073 Antwortzeit (Durchschnitt) 1.32s
#127	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 1.43s
#129	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 2.35s
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 929ms
#139	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.397 Antwortzeit (Durchschnitt) 1.21s
#147	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 1.80s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 2.78s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 20.2s
#151	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.164 Antwortzeit (Durchschnitt) 2.11s
#152	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 2.83s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 2.67s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Anti-KI-Tricks: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten