Fehler-Ranking für Anweisungen nicht befolgt

Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

246

Am stärksten betroffenes Modell

Gemini 3.5 Flash 1

Kategorien

In der Kategorie Rätsellösen90 In der Kategorie Allgemeine Intelligenz78 In der Kategorie Anti-KI-Tricks33 In der Kategorie Befolgung von Anweisungen19 In der Kategorie Programmierung16 In der Kategorie Werkzeugaufrufe8 In der Kategorie Domänenspezifisch1 In der Kategorie Kombiniert1

141/141

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.571 Antwortzeit (Durchschnitt) 6.88s
#62	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $1.627 Antwortzeit (Durchschnitt) 111.9s
#72	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $1.036 Antwortzeit (Durchschnitt) 110.0s
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 47.4s
#79	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.777 Antwortzeit (Durchschnitt) 29.5s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.600 Antwortzeit (Durchschnitt) 99.0s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 11.6s
#88	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 33.9s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.469 Antwortzeit (Durchschnitt) 148.7s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.090 Antwortzeit (Durchschnitt) 4.76s
#112	Gemini 3.1 Flash Lite Preview none	Google	2	6.4	$0.052	12/22	1.58s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 1.58s
#114	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.103 Antwortzeit (Durchschnitt) 68.7s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 5.15s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.122 Antwortzeit (Durchschnitt) 13.6s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 12.7s

Anweisungen nicht befolgt-Fehler

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)