Ranking für Programmierung x API-Fehler

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Programmierung am ehesten auf API-Fehler stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

DeepSeek V4 Pro 1

Fehlergründe

Falsche Antwort230 API-Fehler43 Zeitüberschreitung25 Keine Antwort18 Anweisungen nicht befolgt16 Zusätzliche Formatierung12

Kategorien

Programmierung43 Werkzeugaufrufe16 Datenanalyse und -extraktion14 Allgemeinwissen13 Kombiniert13 Allgemeine Intelligenz12 Anti-KI-Tricks12 Rätsellösen12 Domänenspezifisch5 Befolgung von Anweisungen1

28/28

Rang	Modell	Unternehmen	API-Fehler-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#53	DeepSeek V4 Pro high	DeepSeek	1	6.1	$0.157	1/3	243.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.157 Antwortzeit (Durchschnitt) 243.0s
#87	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 183.9s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.310 Antwortzeit (Durchschnitt) 180.7s
#37	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.294 Antwortzeit (Durchschnitt) 153.1s
#101	Nemotron 3 Super medium	NVIDIA	3	3.1	$0.020	0/3	147.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.020 Antwortzeit (Durchschnitt) 147.3s
#164	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	143.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.026 Antwortzeit (Durchschnitt) 143.8s
#147	MiniMax M2.7 medium	Minimax	1	5.7	$0.100	1/3	101.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.100 Antwortzeit (Durchschnitt) 101.9s
#88	Hy3 preview high	Tencent	2	5.3	$0.048	1/3	99.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 99.8s
#91	Mimo V2 PRO medium	Xiaomi	1	6.0	$0.333	1/3	94.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.333 Antwortzeit (Durchschnitt) 94.2s
#64	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 92.1s
#160	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 79.2s
#86	Ring-2.6-1T medium	Inclusionai	2	5.3	$0.033	1/3	59.6s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 59.6s
#67	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	31.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.018 Antwortzeit (Durchschnitt) 31.4s
#100	Hy3 preview low	Tencent	2	5.3	$0.015	1/3	27.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 27.9s
#125	Owl Alpha medium	Openrouter	1	5.4	$0.000	1/3	18.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 18.7s

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Programmierung: API-Fehler

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten