Modell-Ranking für Programmierung

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Programmierung am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen.

Angezeigte Modelle

Durchschnittlicher Wert für Programmierung-Score

5.7

Bestes Modell

Gemini 3.5 Flash 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort230 Mit Fehlergrund API-Fehler43 Mit Fehlergrund Zeitüberschreitung25 Mit Fehlergrund Keine Antwort18 Mit Fehlergrund Anweisungen nicht befolgt16 Mit Fehlergrund Zusätzliche Formatierung12

189/189

Rang	Modell	Unternehmen	Programmierung-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	3/3	23.0s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $1.115 Antwortzeit (Durchschnitt) 23.0s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.649	3/3	11.3s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.649 Antwortzeit (Durchschnitt) 11.3s
#4	Qwen3.7 Max medium	Qwen	10.0	9.4	$0.523	3/3	35.3s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.523 Antwortzeit (Durchschnitt) 35.3s
#5	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$0.966	3/3	9.40s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.966 Antwortzeit (Durchschnitt) 9.40s
#6	GPT-5.6 Sol high	OpenAI	10.0	9.4	$0.821	3/3	12.5s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.821 Antwortzeit (Durchschnitt) 12.5s
#7	GPT-5.5 low	OpenAI	10.0	9.3	$0.907	3/3	15.0s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.907 Antwortzeit (Durchschnitt) 15.0s
#9	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	3/3	15.6s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $3.165 Antwortzeit (Durchschnitt) 15.6s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.740	3/3	19.5s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.740 Antwortzeit (Durchschnitt) 19.5s
#15	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.107	3/3	15.3s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $1.107 Antwortzeit (Durchschnitt) 15.3s
#18	GLM 5 medium	Z.ai	10.0	8.6	$0.228	3/3	74.3s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.228 Antwortzeit (Durchschnitt) 74.3s
#19	GPT-5 Mini medium	OpenAI	10.0	8.5	$0.159	3/3	27.6s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.159 Antwortzeit (Durchschnitt) 27.6s
#25	GPT-5.2 medium	OpenAI	10.0	8.4	$0.548	3/3	22.7s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 22.7s
#40	Grok 4.5 low	X AI	10.0	7.8	$0.760	3/3	13.7s
Gesamttests 3 Falsche Tests 0 Gesamtkosten $0.760 Antwortzeit (Durchschnitt) 13.7s
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 0ms
#152	Hunter Alpha medium	OpenRouter	9.8	5.1	$0.000	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 0ms

Programmierung-Ranking

Modelle filtern

Top-Modelle nach Programmierung-Score

Programmierung-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)