Ranking für Programmierung x Falsche Antwort

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Programmierung am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Gesamtfehler

230

Am stärksten betroffenes Modell

Laguna XS 2.1 3

Fehlergründe

Falsche Antwort230 API-Fehler43 Zeitüberschreitung23 Keine Antwort18 Anweisungen nicht befolgt16 Zusätzliche Formatierung12

Kategorien

Domänenspezifisch367 Anti-KI-Tricks270 Programmierung230 Rätsellösen172 Allgemeinwissen149 Kombiniert58 Befolgung von Anweisungen56 Allgemeine Intelligenz49 Datenanalyse und -extraktion36 Werkzeugaufrufe3

134/134

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 623ms
#108	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 736ms
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 775ms
#109	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 831ms
#112	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.005 Antwortzeit (Durchschnitt) 850ms
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 901ms
#143	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.038 Antwortzeit (Durchschnitt) 913ms
#167	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 924ms
#111	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 938ms
#97	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.018 Antwortzeit (Durchschnitt) 967ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 980ms
#116	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.130 Antwortzeit (Durchschnitt) 1.00s
#114	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.027 Antwortzeit (Durchschnitt) 1.02s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.011 Antwortzeit (Durchschnitt) 1.03s
#168	Grok 4.20 Beta none	X AI	1	1.8	$0.087	0/1	1.14s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 1.14s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Programmierung: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten