Ranking für Programmierung x Zeitüberschreitung

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Programmierung am ehesten auf Zeitüberschreitung stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Gemma 4 26B A4B 1

Fehlergründe

Falsche Antwort230 API-Fehler43 Zeitüberschreitung25 Keine Antwort18 Anweisungen nicht befolgt16 Zusätzliche Formatierung12

Kategorien

Domänenspezifisch37 Programmierung25 Rätsellösen5 Allgemeine Intelligenz4 Anti-KI-Tricks4 Kombiniert2 Befolgung von Anweisungen1 Datenanalyse und -extraktion1

22/22

Rang	Modell	Unternehmen	Zeitüberschreitung-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#72	Gemma 4 26B A4B medium	Google	1	2.9	$0.045	0/3	272.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 272.5s
#94	Step 3.5 Flash medium	Stepfun	1	2.4	$0.070	0/2	258.4s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.070 Antwortzeit (Durchschnitt) 258.4s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.042 Antwortzeit (Durchschnitt) 248.7s
#53	DeepSeek V4 Pro high	DeepSeek	1	6.1	$0.157	1/3	243.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.157 Antwortzeit (Durchschnitt) 243.0s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 220.5s
#103	Gemma 4 31B medium	Google	2	4.3	$0.033	0/3	219.8s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 219.8s
#56	Kimi K2.5 medium	Moonshot AI	1	6.1	$0.348	1/3	217.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.348 Antwortzeit (Durchschnitt) 217.5s
#44	Kimi K2.6 medium	Moonshot AI	1	5.7	$0.888	1/3	214.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.888 Antwortzeit (Durchschnitt) 214.4s
#104	Qwen3.5-35B-A3B medium	Qwen	1	5.9	$0.401	1/3	206.6s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.401 Antwortzeit (Durchschnitt) 206.6s
#166	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.303 Antwortzeit (Durchschnitt) 188.6s
#79	Kimi K2.7 Code medium	Moonshot AI	1	7.6	$0.581	2/3	146.7s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.581 Antwortzeit (Durchschnitt) 146.7s
#52	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.131 Antwortzeit (Durchschnitt) 144.7s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.588 Antwortzeit (Durchschnitt) 114.5s
#77	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.288 Antwortzeit (Durchschnitt) 109.6s
#30	Qwen3.7 Plus medium	Qwen	1	6.1	$0.177	1/3	108.6s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.177 Antwortzeit (Durchschnitt) 108.6s

Modelle filtern

Top-Modelle nach Zeitüberschreitung-Anzahl

Zeitüberschreitung-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Programmierung: Zeitüberschreitung

Modelle filtern

Top-Modelle nach Zeitüberschreitung-Anzahl

Zeitüberschreitung-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten