Ranking für Programmierung x Falsche Antwort

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Programmierung am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

230

Am stärksten betroffenes Modell

Qwen3.6 Flash 3

Fehlergründe

Falsche Antwort230 API-Fehler43 Zeitüberschreitung25 Keine Antwort18 Anweisungen nicht befolgt16 Zusätzliche Formatierung12

Kategorien

Domänenspezifisch368 Anti-KI-Tricks270 Programmierung230 Rätsellösen173 Allgemeinwissen150 Kombiniert58 Befolgung von Anweisungen56 Allgemeine Intelligenz49 Datenanalyse und -extraktion36 Werkzeugaufrufe3

134/134

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	1	8.4	$0.158	2/3	26.5s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.158 Antwortzeit (Durchschnitt) 26.5s
#33	GPT-5.4 Mini medium	OpenAI	1	8.4	$0.526	2/3	57.9s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.526 Antwortzeit (Durchschnitt) 57.9s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.310 Antwortzeit (Durchschnitt) 180.7s
#36	Claude Sonnet 5 medium	Anthropic	1	9.0	$0.550	2/3	17.3s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.550 Antwortzeit (Durchschnitt) 17.3s
#37	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.294 Antwortzeit (Durchschnitt) 153.1s
#39	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.418 Antwortzeit (Durchschnitt) 33.3s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.588 Antwortzeit (Durchschnitt) 114.5s
#46	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.270 Antwortzeit (Durchschnitt) 7.58s
#47	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.614 Antwortzeit (Durchschnitt) 41.2s
#50	Step 3.7 Flash low	Stepfun	1	8.2	$0.341	2/3	9.46s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.341 Antwortzeit (Durchschnitt) 9.46s
#54	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.927 Antwortzeit (Durchschnitt) 108.5s
#57	Mercury 2 medium	Inception	1	8.2	$0.058	2/3	2.04s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.058 Antwortzeit (Durchschnitt) 2.04s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.042 Antwortzeit (Durchschnitt) 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 220.5s
#68	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.316 Antwortzeit (Durchschnitt) 5.19s

←

1 6 7 8 9

→

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Programmierung: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten