Fehler-Ranking für Anweisungen nicht befolgt

Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Punktzahl ↑.

Angezeigte Modelle

Gesamtfehler

245

Am stärksten betroffenes Modell

LFM2-24B-A2B 1

Kategorien

In der Kategorie Rätsellösen90 In der Kategorie Allgemeine Intelligenz78 In der Kategorie Anti-KI-Tricks33 In der Kategorie Befolgung von Anweisungen18 In der Kategorie Programmierung16 In der Kategorie Werkzeugaufrufe8 In der Kategorie Domänenspezifisch1 In der Kategorie Kombiniert1

140/140

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#210	LFM2-24B-A2B none	Liquid	1	2.2	$0.001	2/16	782ms
Gesamttests 16 Falsche Tests 14 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 782ms
#209	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Gesamttests 12 Falsche Tests 6 Gesamtkosten $0.020 Antwortzeit (Durchschnitt) 39.0s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.2	$0.000	2/19	728ms
Gesamttests 19 Falsche Tests 17 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 728ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
Gesamttests 19 Falsche Tests 15 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 17.1s
#206	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
Gesamttests 19 Falsche Tests 13 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 21.6s
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
Gesamttests 19 Falsche Tests 14 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 806ms
#204	Qwen3.5-9B medium	Qwen	1	3.8	$0.036	3/22	82.2s
Gesamttests 22 Falsche Tests 19 Gesamtkosten $0.036 Antwortzeit (Durchschnitt) 82.2s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
Gesamttests 19 Falsche Tests 16 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.62s
#202	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
Gesamttests 19 Falsche Tests 12 Gesamtkosten $0.547 Antwortzeit (Durchschnitt) 28.7s
#201	Granite 4.1 8B none	IBM Granite	4	4.0	$0.007	2/22	1.45s
Gesamttests 22 Falsche Tests 20 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 1.45s
#200	MiMo-V2-Flash none	Xiaomi	2	4.0	$0.025	4/21	2.76s
Gesamttests 21 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 2.76s
#199	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
Gesamttests 21 Falsche Tests 17 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 12.9s
#196	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
Gesamttests 18 Falsche Tests 12 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 4.70s
#195	Elephant Alpha medium	Openrouter	2	4.3	$0.000	6/21	1.27s
Gesamttests 21 Falsche Tests 15 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 1.27s
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.166 Antwortzeit (Durchschnitt) 142.6s

Anweisungen nicht befolgt-Fehler

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)