Ranking für Programmierung x Falsche Antwort

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Programmierung am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

MiMo-V2-Omni 1

Fehlergründe

Falsche Antwort26 Zeitüberschreitung12 API-Fehler6 Anweisungen nicht befolgt2

Kategorien

Domänenspezifisch173 Anti-KI-Tricks156 Rätsellösen80 Befolgung von Anweisungen43 Kombiniert34 Programmierung26 Datenanalyse und -extraktion17 Allgemeine Intelligenz10 Werkzeugaufrufe2

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Korrekte Tests	Antwortzeit (Durchschnitt)
#32	MiMo-V2-Omni medium	Xiaomi	1	4.0	0/1	68.5s
#44	Grok 4.20 medium	X AI	1	4.3	0/1	24.3s
#46	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.3	0/1	3.63s
#50	GLM 5 none	Z.ai	1	5.6	0/1	8.84s
#52	MiMo-V2-Omni none	Xiaomi	1	6.6	0/1	1.72s
#54	GPT-5 Nano medium	OpenAI	1	6.7	0/1	40.7s
#61	DeepSeek V3.2 none	DeepSeek	1	2.4	0/1	7.63s
#65	gpt-oss-120b medium	OpenAI	1	4.3	0/1	26.3s
#66	Qwen3.5-122B-A10B none	Qwen	1	4.3	0/1	3.44s
#69	Mistral Small 4 medium	Mistral	1	6.7	0/1	30.5s
#70	GLM 4.7 Flash none	Z.ai	1	6.4	0/1	5.57s
#71	GLM 5.1 none	Z.ai	1	5.1	0/1	9.79s
#73	GLM 5 Turbo none	Z.ai	1	5.3	0/1	3.93s
#74	Trinity Large Preview none	Arcee AI	1	6.3	0/1	39.5s
#75	Grok 4.20 Beta none	X AI	1	5.5	0/1	1.14s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Programmierung: Falsche Antwort

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten