Modell-Ranking für Programmierung

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Programmierung am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Programmierung-Score

5.7

Bestes Modell

Qwen3.6 Flash 5.0

Fehlergründe

Mit Fehlergrund Falsche Antwort230 Mit Fehlergrund API-Fehler43 Mit Fehlergrund Zeitüberschreitung25 Mit Fehlergrund Keine Antwort18 Mit Fehlergrund Anweisungen nicht befolgt16 Mit Fehlergrund Zusätzliche Formatierung12

189/189

Rang	Modell	Unternehmen	Programmierung-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 831ms
#112	Gemini 3.1 Flash Lite none	Google	5.5	6.1	$0.013	1/3	938ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 938ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.005 Antwortzeit (Durchschnitt) 850ms
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.5	6.1	$0.027	1/3	1.02s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.027 Antwortzeit (Durchschnitt) 1.02s
#117	GPT-5.6 Terra none	OpenAI	5.5	6.0	$0.130	1/3	1.00s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.130 Antwortzeit (Durchschnitt) 1.00s
#119	Qwen3.6 Flash none	Qwen	5.4	6.0	$0.015	1/3	1.79s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 1.79s
#120	Qwen3.5-35B-A3B none	Qwen	5.5	5.9	$0.012	1/3	1.39s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.012 Antwortzeit (Durchschnitt) 1.39s
#121	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 1.80s
#122	GLM 5V Turbo none	Z.ai	5.5	5.9	$0.052	1/3	3.13s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 3.13s
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 18.7s
#126	Mimo V2 PRO none	Xiaomi	5.5	5.8	$0.045	1/3	2.65s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 2.65s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 36.9s
#128	Kimi K2.6 none	Moonshot AI	5.5	5.8	$0.078	1/3	82.6s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 82.6s

Programmierung-Ranking

Modelle filtern

Top-Modelle nach Programmierung-Score

Programmierung-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)