Modelranglijst voor Programmeren

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Programmeren, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Metriek ↑.

Getoonde modellen

Gemiddelde Programmeren-score

5.7

Beste model

Gemini 3.1 Flash Lite Preview 0.0

Foutredenen

Met foutreden Verkeerd antwoord230 Met foutreden API-fout43 Met foutreden Time-out23 Met foutreden Geen antwoord18 Met foutreden Instructies niet gevolgd16 Met foutreden Extra opmaak12

188/188

Rang	Model	Bedrijf	Programmeren-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#110	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
Totaal tests 0 Foute tests 0 Totale kosten $2.310 Responstijd (gem.) 0ms
#188	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
Totaal tests 0 Foute tests 0 Totale kosten $0.001 Responstijd (gem.) 0ms
#185	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
Totaal tests 1 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 38.1s
#174	Grok 4.20 none	X AI	1.1	4.4	$0.057	0/1	1.22s
Totaal tests 1 Foute tests 1 Totale kosten $0.057 Responstijd (gem.) 1.22s
#157	Laguna M.1 medium	Poolside	1.5	5.0	$0.033	0/1	35.6s
Totaal tests 1 Foute tests 1 Totale kosten $0.033 Responstijd (gem.) 35.6s
#183	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
Totaal tests 1 Foute tests 1 Totale kosten $0.010 Responstijd (gem.) 9.57s
#180	Grok 4.1 Fast none	X AI	1.8	4.0	$0.008	0/1	1.79s
Totaal tests 1 Foute tests 1 Totale kosten $0.008 Responstijd (gem.) 1.79s
#168	Grok 4.20 Beta none	X AI	1.8	4.7	$0.087	0/1	1.14s
Totaal tests 1 Foute tests 1 Totale kosten $0.087 Responstijd (gem.) 1.14s
#175	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
Totaal tests 1 Foute tests 1 Totale kosten $0.015 Responstijd (gem.) 14.4s
#93	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
Totaal tests 2 Foute tests 2 Totale kosten $0.070 Responstijd (gem.) 258.4s
#169	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
Totaal tests 1 Foute tests 1 Totale kosten $0.009 Responstijd (gem.) 2.93s
#177	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
Totaal tests 3 Foute tests 3 Totale kosten $0.003 Responstijd (gem.) 4.56s
#184	Qwen3.5-9B medium	Qwen	2.9	3.8	$0.036	0/3	100.9s
Totaal tests 3 Foute tests 3 Totale kosten $0.036 Responstijd (gem.) 100.9s
#71	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
Totaal tests 3 Foute tests 3 Totale kosten $0.045 Responstijd (gem.) 272.5s
#105	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
Totaal tests 3 Foute tests 3 Totale kosten $0.385 Responstijd (gem.) 0ms

Programmeren-ranglijst

Modellen filteren

Topmodellen op Programmeren-score

Programmeren-score vs totale kosten

Topmodellen op Responstijd (gem.)