Ranking für Programmierung x Falsche Antwort

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Programmierung am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

230

Am stärksten betroffenes Modell

Qwen3.6 Flash 3

Fehlergründe

Falsche Antwort230 API-Fehler43 Zeitüberschreitung23 Keine Antwort18 Anweisungen nicht befolgt16 Zusätzliche Formatierung12

Kategorien

Domänenspezifisch367 Anti-KI-Tricks270 Programmierung230 Rätsellösen172 Allgemeinwissen149 Kombiniert58 Befolgung von Anweisungen56 Allgemeine Intelligenz49 Datenanalyse und -extraktion36 Werkzeugaufrufe3

134/134

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#59	Qwen3.6 Flash medium	Qwen	3	5.0	$0.288	0/3	42.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.288 Antwortzeit (Durchschnitt) 42.9s
#115	Qwen3.6 Max Preview none	Qwen	3	3.8	$0.075	0/3	3.12s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.075 Antwortzeit (Durchschnitt) 3.12s
#117	GLM 5 none	Z.ai	3	4.0	$0.027	0/3	5.12s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.027 Antwortzeit (Durchschnitt) 5.12s
#122	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.3	$0.016	0/3	2.05s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 2.05s
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 320.4s
#131	Claude Sonnet 5 none	Anthropic	3	4.6	$0.287	0/3	3.67s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.287 Antwortzeit (Durchschnitt) 3.67s
#133	GLM 5.1 none	Z.ai	3	3.9	$0.057	0/3	4.96s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 4.96s
#134	DeepSeek V4 Flash none	DeepSeek	3	4.2	$0.007	0/3	17.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 17.1s
#140	GLM 5 Turbo none	Z.ai	3	3.9	$0.047	0/3	2.41s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 2.41s
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 623ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 980ms
#144	Qwen3.5-122B-A10B none	Qwen	3	3.7	$0.020	0/3	2.77s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.020 Antwortzeit (Durchschnitt) 2.77s
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 901ms
#149	Qwen3 Coder Next none	Qwen	3	4.6	$0.009	0/3	2.22s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 2.22s
#150	North Mini Code none	Cohere	3	3.9	$0.000	0/3	22.0s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 22.0s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Programmierung: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten