Fehler-Ranking für Anweisungen nicht befolgt

Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

246

Am stärksten betroffenes Modell

Gemini 3.5 Flash 1

Kategorien

In der Kategorie Rätsellösen90 In der Kategorie Allgemeine Intelligenz78 In der Kategorie Anti-KI-Tricks33 In der Kategorie Befolgung von Anweisungen19 In der Kategorie Programmierung16 In der Kategorie Werkzeugaufrufe8 In der Kategorie Domänenspezifisch1 In der Kategorie Kombiniert1

141/141

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 8.42s
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.042 Antwortzeit (Durchschnitt) 36.8s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
Gesamttests 21 Falsche Tests 13 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 2.44s
#166	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.55s
#169	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
Gesamttests 16 Falsche Tests 3 Gesamtkosten $2.310 Antwortzeit (Durchschnitt) 68.1s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.147 Antwortzeit (Durchschnitt) 3.50s
#171	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.022 Antwortzeit (Durchschnitt) 1.20s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 9.12s
#174	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 4.62s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 18.3s
#180	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 1.99s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 9.15s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
Gesamttests 19 Falsche Tests 10 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 14.7s
#195	Mercury 2 none	Inception	1	4.6	$0.030	4/22	829ms
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.030 Antwortzeit (Durchschnitt) 829ms
#197	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
Gesamttests 18 Falsche Tests 12 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 1.19s

Anweisungen nicht befolgt-Fehler

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)