Ranking für Anti-KI-Tricks x Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Hy3 preview 2

Fehlergründe

Falsche Antwort293 Anweisungen nicht befolgt33 Zusätzliche Formatierung20 API-Fehler14 Keine Antwort4 Zeitüberschreitung4

Kategorien

Rätsellösen90 Allgemeine Intelligenz78 Anti-KI-Tricks33 Befolgung von Anweisungen18 Programmierung16 Werkzeugaufrufe8 Domänenspezifisch1 Kombiniert1

32/32

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#121	gpt-oss-120b medium	OpenAI	1	6.7	$0.019	2/4	10.2s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.019 Antwortzeit (Durchschnitt) 10.2s
#148	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.068	0/4	2.67s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 2.67s
#157	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 1.63s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	1/4	755ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 755ms
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 3.31s
#172	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 40.3s
#178	Ling-2.6-flash none	Inclusionai	1	6.8	$0.002	2/4	11.8s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.002 Antwortzeit (Durchschnitt) 11.8s
#179	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
Gesamttests 4 Falsche Tests 1 Gesamtkosten $0.026 Antwortzeit (Durchschnitt) 43.3s
#187	Qwen3 Coder Next medium	Qwen	1	3.5	$0.032	0/4	8.64s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.032 Antwortzeit (Durchschnitt) 8.64s
#190	MiniMax M2.5 medium	Minimax	1	7.9	$0.340	2/4	20.8s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.340 Antwortzeit (Durchschnitt) 20.8s
#193	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 963ms
#194	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.166	1/4	15.0s
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.166 Antwortzeit (Durchschnitt) 15.0s
#201	Granite 4.1 8B none	IBM Granite	1	4.9	$0.007	1/4	844ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 844ms
#203	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.07s

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Anti-KI-Tricks: Anweisungen nicht befolgt

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten