Ranking für Programmierung x Anweisungen nicht befolgt

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Programmierung am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

GLM 5.2 1

Fehlergründe

Falsche Antwort230 API-Fehler43 Zeitüberschreitung23 Keine Antwort18 Anweisungen nicht befolgt16 Zusätzliche Formatierung12

Kategorien

Rätsellösen82 Allgemeine Intelligenz74 Anti-KI-Tricks31 Programmierung16 Befolgung von Anweisungen15 Werkzeugaufrufe6 Domänenspezifisch1 Kombiniert1

16/16

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#73	GLM 5.2 none	Z.ai	1	3.7	$0.030	0/3	7.55s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.030 Antwortzeit (Durchschnitt) 7.55s
#132	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.069 Antwortzeit (Durchschnitt) 23.6s
#136	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 1.41s
#139	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.032 Antwortzeit (Durchschnitt) 1.69s
#145	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.017	0/3	14.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 14.5s
#157	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 35.6s
#159	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 79.2s
#178	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 2.64s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 775ms
#184	Qwen3.5-9B medium	Qwen	1	2.9	$0.036	0/3	100.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.036 Antwortzeit (Durchschnitt) 100.9s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $2.053 Antwortzeit (Durchschnitt) 30.1s
#69	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.539 Antwortzeit (Durchschnitt) 3.29s
#70	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.034 Antwortzeit (Durchschnitt) 13.4s
#84	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.108 Antwortzeit (Durchschnitt) 2.75s
#127	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 82.6s

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Programmierung: Anweisungen nicht befolgt

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten