Ranking für Anti-KI-Tricks x Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

DeepSeek V4 Pro 1

Fehlergründe

Falsche Antwort293 Anweisungen nicht befolgt33 Zusätzliche Formatierung20 API-Fehler14 Keine Antwort4 Zeitüberschreitung4

Kategorien

Rätsellösen90 Allgemeine Intelligenz78 Anti-KI-Tricks33 Befolgung von Anweisungen18 Programmierung16 Werkzeugaufrufe8 Domänenspezifisch1 Kombiniert1

32/32

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 4.02s
#148	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.068	0/4	2.67s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 2.67s
#157	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 1.63s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 3.31s
#187	Qwen3 Coder Next medium	Qwen	1	3.5	$0.032	0/4	8.64s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.032 Antwortzeit (Durchschnitt) 8.64s
#203	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.07s
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 534ms
#47	MiniMax M3 medium	Minimax	1	5.5	$0.286	1/4	14.9s
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.286 Antwortzeit (Durchschnitt) 14.9s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	1/4	755ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 755ms
#194	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.166	1/4	15.0s
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.166 Antwortzeit (Durchschnitt) 15.0s
#199	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 11.1s
#201	Granite 4.1 8B none	IBM Granite	1	4.9	$0.007	1/4	844ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 844ms
#21	GPT-5.2 medium	OpenAI	1	6.5	$0.951	2/4	7.81s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.951 Antwortzeit (Durchschnitt) 7.81s
#26	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.237 Antwortzeit (Durchschnitt) 13.9s

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Anti-KI-Tricks: Anweisungen nicht befolgt

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten