Fehler-Ranking für Anweisungen nicht befolgt

Sieh, bei welchen KI-Modellen Anweisungen nicht befolgt besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

246

Am stärksten betroffenes Modell

Step 3.5 Flash 3

Kategorien

In der Kategorie Rätsellösen90 In der Kategorie Allgemeine Intelligenz78 In der Kategorie Anti-KI-Tricks33 In der Kategorie Befolgung von Anweisungen19 In der Kategorie Programmierung16 In der Kategorie Werkzeugaufrufe8 In der Kategorie Domänenspezifisch1 In der Kategorie Kombiniert1

141/141

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#175	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 19.2s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 18.3s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.4	$0.000	4/19	17.1s
Gesamttests 19 Falsche Tests 15 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 17.1s
#16	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.920 Antwortzeit (Durchschnitt) 17.0s
#110	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.646 Antwortzeit (Durchschnitt) 16.7s
#106	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
Gesamttests 21 Falsche Tests 7 Gesamtkosten $0.018 Antwortzeit (Durchschnitt) 16.3s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
Gesamttests 19 Falsche Tests 10 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 14.7s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.1	$0.122	8/22	13.6s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.122 Antwortzeit (Durchschnitt) 13.6s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.138 Antwortzeit (Durchschnitt) 13.2s
#205	Hy3 preview none	Tencent	4	4.0	$0.003	4/21	12.9s
Gesamttests 21 Falsche Tests 17 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 12.9s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.7	$0.247	6/22	12.9s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.247 Antwortzeit (Durchschnitt) 12.9s
#133	Qwen3.5-35B-A3B none	Qwen	2	6.1	$0.106	7/22	12.7s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 12.7s
#26	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.922 Antwortzeit (Durchschnitt) 12.5s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 12.1s
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
Gesamttests 21 Falsche Tests 13 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 11.9s

Anweisungen nicht befolgt-Fehler

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)