Modell-Ranking für Programmierung

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Programmierung am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen.

Angezeigte Modelle

Durchschnittlicher Wert für Programmierung-Score

7.2

Bestes Modell

Fehlergründe

Mit Fehlergrund Falsche Antwort26 Mit Fehlergrund Zeitüberschreitung12 Mit Fehlergrund API-Fehler6 Mit Fehlergrund Anweisungen nicht befolgt2

Rang	Modell	Unternehmen	Programmierung-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#1	Gemini 3 Flash Preview medium	Google	10.0	10.0	1/1	79.7s
#2	Gemini 3.1 Pro Preview medium	Google	10.0	9.6	1/1	19.9s
#3	Gemini 3 Flash Preview low	Google	10.0	8.8	1/1	6.94s
#4	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.6	1/1	74.5s
#5	GPT-5.3-Codex medium	OpenAI	10.0	8.6	1/1	8.95s
#6	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	8.5	1/1	120.9s
#8	Qwen3.5-27B medium	Qwen	10.0	8.4	1/1	70.4s
#11	GLM 5 medium	Z.ai	10.0	8.4	1/1	79.1s
#13	Gemini 2.5 Flash medium	Google	10.0	8.2	1/1	16.2s
#14	GPT-5.4 medium	OpenAI	10.0	8.2	1/1	13.0s
#15	Gemini 3.1 Flash Lite Preview medium	Google	10.0	8.2	1/1	4.34s
#16	GLM 5 Turbo medium	Z.ai	10.0	8.1	1/1	12.3s
#19	Gemini 3 Flash Preview none	Google	10.0	8.1	1/1	1.59s
#20	Gemini 3.1 Flash Lite Preview low	Google	10.0	8.1	1/1	2.20s
#21	MiMo-V2-Pro medium	Xiaomi	10.0	8.1	1/1	52.1s

1 2 3 4 5 6

→

Programmierung-Ranking