Modelranglijst voor Programmeren

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Programmeren, welke betrouwbaar blijven en waar de grootste verschillen zitten.

Getoonde modellen

Gemiddelde Programmeren-score

5.7

Beste model

Gemini 3.5 Flash 10.0

Foutredenen

Met foutreden Verkeerd antwoord230 Met foutreden API-fout43 Met foutreden Time-out23 Met foutreden Geen antwoord18 Met foutreden Instructies niet gevolgd16 Met foutreden Extra opmaak12

188/188

Rang	Model	Bedrijf	Programmeren-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#36	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
Totaal tests 3 Foute tests 2 Totale kosten $0.294 Responstijd (gem.) 153.1s
#44	Qwen3.5-122B-A10B medium	Qwen	6.0	7.7	$0.588	1/3	114.5s
Totaal tests 3 Foute tests 2 Totale kosten $0.588 Responstijd (gem.) 114.5s
#68	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
Totaal tests 3 Foute tests 2 Totale kosten $0.457 Responstijd (gem.) 63.4s
#74	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.043 Responstijd (gem.) 10.7s
#90	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
Totaal tests 3 Foute tests 2 Totale kosten $0.333 Responstijd (gem.) 94.2s
#60	DeepSeek V3.2 medium	DeepSeek	6.0	7.5	$0.044	1/3	248.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.044 Responstijd (gem.) 248.7s
#91	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
Totaal tests 3 Foute tests 2 Totale kosten $0.013 Responstijd (gem.) 38.4s
#46	Grok 4.3 medium	X AI	5.9	7.7	$0.614	1/3	41.2s
Totaal tests 3 Foute tests 2 Totale kosten $0.614 Responstijd (gem.) 41.2s
#103	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
Totaal tests 3 Foute tests 2 Totale kosten $0.401 Responstijd (gem.) 206.6s
#120	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
Totaal tests 3 Foute tests 2 Totale kosten $0.015 Responstijd (gem.) 1.80s
#64	Gemini 3 Flash Preview low	Google	5.8	7.4	$0.111	1/3	6.00s
Totaal tests 3 Foute tests 2 Totale kosten $0.111 Responstijd (gem.) 6.00s
#48	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
Totaal tests 3 Foute tests 2 Totale kosten $2.053 Responstijd (gem.) 30.1s
#38	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
Totaal tests 3 Foute tests 2 Totale kosten $1.418 Responstijd (gem.) 33.3s
#43	Kimi K2.6 medium	Moonshot AI	5.7	7.8	$0.888	1/3	214.4s
Totaal tests 3 Foute tests 2 Totale kosten $0.888 Responstijd (gem.) 214.4s
#53	Grok Build 0.1 medium	X AI	5.7	7.6	$0.927	1/3	108.5s
Totaal tests 3 Foute tests 2 Totale kosten $0.927 Responstijd (gem.) 108.5s

Programmeren-ranglijst

Modellen filteren

Topmodellen op Programmeren-score

Programmeren-score vs totale kosten

Topmodellen op Responstijd (gem.)