Ranking für Anti-KI-Tricks x Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Laguna Xs.2 1

Fehlergründe

Falsche Antwort293 Anweisungen nicht befolgt33 Zusätzliche Formatierung20 API-Fehler14 Keine Antwort4 Zeitüberschreitung4

Kategorien

Rätsellösen90 Allgemeine Intelligenz78 Anti-KI-Tricks33 Befolgung von Anweisungen18 Programmierung16 Werkzeugaufrufe8 Domänenspezifisch1 Kombiniert1

32/32

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 534ms
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	1/4	755ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 755ms
#201	Granite 4.1 8B none	IBM Granite	1	4.9	$0.007	1/4	844ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 844ms
#193	Elephant Alpha none	Openrouter	1	6.6	$0.000	2/4	963ms
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 963ms
#106	Gemini 3.1 Flash Lite Preview none	Google	1	7.5	$0.052	2/4	1.04s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 1.04s
#203	Grok 4.1 Fast none	X AI	1	3.2	$0.008	0/4	1.07s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.07s
#78	Mercury 2 medium	Inception	1	6.9	$0.093	2/4	1.12s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.093 Antwortzeit (Durchschnitt) 1.12s
#157	Mimo V2 Omni none	Xiaomi	1	3.6	$0.021	0/4	1.63s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 1.63s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	9.1	$0.115	3/4	2.33s
Gesamttests 4 Falsche Tests 1 Gesamtkosten $0.115 Antwortzeit (Durchschnitt) 2.33s
#65	Gemini 3.1 Flash Lite medium	Google	1	9.1	$0.117	3/4	2.39s
Gesamttests 4 Falsche Tests 1 Gesamtkosten $0.117 Antwortzeit (Durchschnitt) 2.39s
#154	MiMo-V2.5-Pro none	Xiaomi	1	3.3	$0.068	0/4	2.67s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 2.67s
#148	Owl Alpha none	Openrouter	1	3.4	$0.000	0/4	2.78s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 2.78s
#166	Qwen3 Coder Next none	Qwen	1	3.6	$0.025	0/4	3.31s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 3.31s
#54	GPT-5.3 Chat none	OpenAI	1	6.7	$0.571	2/4	3.86s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.571 Antwortzeit (Durchschnitt) 3.86s
#82	DeepSeek V4 Pro none	DeepSeek	1	3.2	$0.096	0/4	4.02s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 4.02s

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Anti-KI-Tricks: Anweisungen nicht befolgt

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten