Modell-Ranking für Programmierung

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Programmierung am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Programmierung-Score

5.7

Bestes Modell

Gemini 3.1 Flash Lite Preview 0.0

Fehlergründe

Mit Fehlergrund Falsche Antwort230 Mit Fehlergrund API-Fehler43 Mit Fehlergrund Zeitüberschreitung25 Mit Fehlergrund Keine Antwort18 Mit Fehlergrund Anweisungen nicht befolgt16 Mit Fehlergrund Zusätzliche Formatierung12

189/189

Rang	Modell	Unternehmen	Programmierung-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
Gesamttests 0 Falsche Tests 0 Gesamtkosten $2.310 Antwortzeit (Durchschnitt) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
Gesamttests 0 Falsche Tests 0 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 0ms
#186	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 38.1s
#175	Grok 4.20 none	X AI	1.1	4.4	$0.057	0/1	1.22s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 1.22s
#158	Laguna M.1 medium	Poolside	1.5	5.0	$0.033	0/1	35.6s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 35.6s
#184	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 9.57s
#181	Grok 4.1 Fast none	X AI	1.8	4.0	$0.008	0/1	1.79s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.79s
#169	Grok 4.20 Beta none	X AI	1.8	4.7	$0.087	0/1	1.14s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 1.14s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 14.4s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.070 Antwortzeit (Durchschnitt) 258.4s
#170	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 2.93s
#178	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 4.56s
#185	Qwen3.5-9B medium	Qwen	2.9	3.8	$0.036	0/3	100.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.036 Antwortzeit (Durchschnitt) 100.9s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 272.5s
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.385 Antwortzeit (Durchschnitt) 0ms

Programmierung-Ranking

Modelle filtern

Top-Modelle nach Programmierung-Score

Programmierung-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)