Modell-Ranking für Programmierung

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Programmierung am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Programmierung-Score

5.7

Bestes Modell

Gemini 3.1 Flash Lite Preview 0.0

Fehlergründe

Mit Fehlergrund Falsche Antwort230 Mit Fehlergrund API-Fehler43 Mit Fehlergrund Zeitüberschreitung25 Mit Fehlergrund Keine Antwort18 Mit Fehlergrund Anweisungen nicht befolgt16 Mit Fehlergrund Zusätzliche Formatierung12

189/189

Rang	Modell	Unternehmen	Programmierung-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 14.5s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.020 Antwortzeit (Durchschnitt) 147.3s
#159	GPT-4o-mini none	OpenAI	3.2	5.0	$0.006	0/3	1.63s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.006 Antwortzeit (Durchschnitt) 1.63s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 55.3s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 183.9s
#162	Nemotron 3 Super none	NVIDIA	3.3	4.9	$0.006	0/3	2.64s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.006 Antwortzeit (Durchschnitt) 2.64s
#62	Claude Opus 4.7 none	Anthropic	3.3	7.4	$0.505	1/1	2.84s
Gesamttests 1 Falsche Tests 0 Gesamtkosten $0.505 Antwortzeit (Durchschnitt) 2.84s
#83	Grok 4.20 Beta medium	X AI	3.3	6.8	$0.750	1/1	31.4s
Gesamttests 1 Falsche Tests 0 Gesamtkosten $0.750 Antwortzeit (Durchschnitt) 31.4s
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
Gesamttests 1 Falsche Tests 0 Gesamtkosten $2.044 Antwortzeit (Durchschnitt) 137.6s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
Gesamttests 1 Falsche Tests 0 Gesamtkosten $5.599 Antwortzeit (Durchschnitt) 27.1s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
Gesamttests 1 Falsche Tests 0 Gesamtkosten $0.547 Antwortzeit (Durchschnitt) 21.4s
#187	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.3	3.5	$0.000	1/1	1.27s
Gesamttests 1 Falsche Tests 0 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 1.27s
#171	Mercury 2 none	Inception	3.4	4.6	$0.011	0/3	1.03s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.011 Antwortzeit (Durchschnitt) 1.03s
#166	MiniMax M2.5 medium	Minimax	3.4	4.7	$0.303	0/3	188.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.303 Antwortzeit (Durchschnitt) 188.6s
#157	Trinity Large Preview none	Arcee AI	3.7	5.0	$0.008	0/3	14.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 14.3s

Programmierung-Ranking

Modelle filtern

Top-Modelle nach Programmierung-Score

Programmierung-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)