Fehler-Ranking für Anweisungen nicht befolgt

Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Gesamtfehler

245

Am stärksten betroffenes Modell

Nemotron 3 Nano Omni 30b A3b Reasoning 2

Kategorien

In der Kategorie Rätsellösen90 In der Kategorie Allgemeine Intelligenz78 In der Kategorie Anti-KI-Tricks33 In der Kategorie Befolgung von Anweisungen18 In der Kategorie Programmierung16 In der Kategorie Werkzeugaufrufe8 In der Kategorie Domänenspezifisch1 In der Kategorie Kombiniert1

140/140

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#120	Gemini 3.1 Flash Lite minimal	Google	3	6.1	$0.047	10/22	1.86s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 1.86s
#174	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 1.99s
#139	GPT-5.4 none	OpenAI	1	5.8	$0.397	7/22	2.07s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.397 Antwortzeit (Durchschnitt) 2.07s
#83	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.524 Antwortzeit (Durchschnitt) 2.16s
#147	Mimo V2 PRO none	Xiaomi	2	5.6	$0.045	7/21	2.27s
Gesamttests 21 Falsche Tests 14 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 2.27s
#157	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Gesamttests 21 Falsche Tests 13 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 2.44s
#180	GPT-5.4 Nano none	OpenAI	2	4.8	$0.041	4/22	2.57s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 2.57s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.300 Antwortzeit (Durchschnitt) 2.65s
#78	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.093 Antwortzeit (Durchschnitt) 2.72s
#200	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
Gesamttests 21 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 2.76s
#170	GLM 5 Turbo none	Z.ai	2	5.1	$0.047	6/21	2.82s
Gesamttests 21 Falsche Tests 15 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 2.82s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
Gesamttests 21 Falsche Tests 17 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 2.98s
#145	GLM 5V Turbo none	Z.ai	2	5.6	$0.052	8/21	2.99s
Gesamttests 21 Falsche Tests 13 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 2.99s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.147 Antwortzeit (Durchschnitt) 3.50s
#124	Qwen3.6 Flash none	Qwen	1	6.1	$0.062	7/22	3.74s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.062 Antwortzeit (Durchschnitt) 3.74s

Anweisungen nicht befolgt-Fehler

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)