Fehler-Ranking für Anweisungen nicht befolgt

Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

Gesamtfehler

250

Am stärksten betroffenes Modell

MiniMax M2.7 5

Kategorien

In der Kategorie Rätsellösen90 In der Kategorie Allgemeine Intelligenz78 In der Kategorie Anti-KI-Tricks33 In der Kategorie Befolgung von Anweisungen23 In der Kategorie Programmierung16 In der Kategorie Werkzeugaufrufe8 In der Kategorie Domänenspezifisch1 In der Kategorie Kombiniert1

145/145

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#218	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
Gesamttests 19 Falsche Tests 17 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 728ms
#12	Gemini 3.5 Flash medium	Google	1	9.1	$0.642	19/22	8.20s
Gesamttests 22 Falsche Tests 3 Gesamtkosten $0.642 Antwortzeit (Durchschnitt) 8.20s
#15	Grok 4.5 high	X AI	1	8.9	$1.707	17/22	76.5s
Gesamttests 22 Falsche Tests 5 Gesamtkosten $1.707 Antwortzeit (Durchschnitt) 76.5s
#26	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.922 Antwortzeit (Durchschnitt) 12.5s
#28	Gemini 2.5 Flash medium	Google	1	8.2	$0.643	15/22	21.2s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.643 Antwortzeit (Durchschnitt) 21.2s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.1	$0.584	14/22	9.48s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.584 Antwortzeit (Durchschnitt) 9.48s
#32	Inkling high	Thinkingmachines	1	8.0	$1.006	15/22	64.2s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $1.006 Antwortzeit (Durchschnitt) 64.2s
#33	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.515 Antwortzeit (Durchschnitt) 26.4s
#34	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.604 Antwortzeit (Durchschnitt) 7.65s
#35	GLM 5.2 high	Z.ai	1	8.0	$0.796	14/22	62.7s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.796 Antwortzeit (Durchschnitt) 62.7s
#41	Qwen3.6 Plus medium	Qwen	1	7.8	$0.405	15/22	43.1s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.405 Antwortzeit (Durchschnitt) 43.1s
#46	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
Gesamttests 21 Falsche Tests 6 Gesamtkosten $0.307 Antwortzeit (Durchschnitt) 33.5s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $3.059 Antwortzeit (Durchschnitt) 34.3s
#53	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
Gesamttests 21 Falsche Tests 7 Gesamtkosten $0.323 Antwortzeit (Durchschnitt) 23.0s
#56	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.740	12/22	84.2s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.740 Antwortzeit (Durchschnitt) 84.2s

Anweisungen nicht befolgt-Fehler

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)