Modelranglijst voor Programmeren

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Programmeren, welke betrouwbaar blijven en waar de grootste verschillen zitten.

Getoonde modellen

Gemiddelde Programmeren-score

5.7

Beste model

Gemini 3.5 Flash 10.0

Foutredenen

Met foutreden Verkeerd antwoord230 Met foutreden API-fout43 Met foutreden Time-out23 Met foutreden Geen antwoord18 Met foutreden Instructies niet gevolgd16 Met foutreden Extra opmaak12

188/188

Rang	Model	Bedrijf	Programmeren-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#173	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 0ms
#187	Step 3.5 Flash none	Stepfun	9.8	2.6	$0.020	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.020 Responstijd (gem.) 0ms
#35	Claude Sonnet 5 medium	Anthropic	9.0	7.9	$0.550	2/3	17.3s
Totaal tests 3 Foute tests 1 Totale kosten $0.550 Responstijd (gem.) 17.3s
#12	GPT-5.5 medium	OpenAI	8.8	9.0	$3.679	2/3	59.8s
Totaal tests 3 Foute tests 1 Totale kosten $3.679 Responstijd (gem.) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	8.8	8.9	$0.960	2/3	146.5s
Totaal tests 3 Foute tests 1 Totale kosten $0.960 Responstijd (gem.) 146.5s
#20	GPT-5.4 medium	OpenAI	8.8	8.5	$1.210	2/3	44.4s
Totaal tests 3 Foute tests 1 Totale kosten $1.210 Responstijd (gem.) 44.4s
#22	GPT-5.2 Chat none	OpenAI	8.8	8.5	$0.393	2/3	9.82s
Totaal tests 3 Foute tests 1 Totale kosten $0.393 Responstijd (gem.) 9.82s
#23	Step 3.7 Flash medium	Stepfun	8.8	8.5	$0.376	2/3	27.4s
Totaal tests 3 Foute tests 1 Totale kosten $0.376 Responstijd (gem.) 27.4s
#79	Gemini 3.5 Flash none	Google	8.8	7.0	$1.079	2/3	34.7s
Totaal tests 3 Foute tests 1 Totale kosten $1.079 Responstijd (gem.) 34.7s
#2	Gemini 3 Flash Preview medium	Google	8.6	9.6	$0.667	2/3	84.4s
Totaal tests 3 Foute tests 1 Totale kosten $0.667 Responstijd (gem.) 84.4s
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	8.4	8.1	$0.158	2/3	26.5s
Totaal tests 3 Foute tests 1 Totale kosten $0.158 Responstijd (gem.) 26.5s
#32	GPT-5.4 Mini medium	OpenAI	8.4	8.0	$0.526	2/3	57.9s
Totaal tests 3 Foute tests 1 Totale kosten $0.526 Responstijd (gem.) 57.9s
#181	Laguna Xs.2 none	Poolside	8.3	4.0	$0.004	0/1	1.96s
Totaal tests 1 Foute tests 1 Totale kosten $0.004 Responstijd (gem.) 1.96s
#17	GLM 5.2 medium	Z.ai	8.2	8.7	$0.129	2/3	41.0s
Totaal tests 3 Foute tests 1 Totale kosten $0.129 Responstijd (gem.) 41.0s
#49	Step 3.7 Flash low	Stepfun	8.2	7.7	$0.341	2/3	9.46s
Totaal tests 3 Foute tests 1 Totale kosten $0.341 Responstijd (gem.) 9.46s

Programmeren-ranglijst

Modellen filteren

Topmodellen op Programmeren-score

Programmeren-score vs totale kosten

Topmodellen op Responstijd (gem.)