Modelranglijst voor Programmeren

AI BENCHY Categorie

Zie welke AI-modellen het best presteren op Programmeren, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Metriek ↑.

Getoonde modellen

Gemiddelde Programmeren-score

5.7

Beste model

Gemini 3.1 Flash Lite Preview 0.0

Foutredenen

Met foutreden Verkeerd antwoord230 Met foutreden API-fout43 Met foutreden Time-out25 Met foutreden Geen antwoord18 Met foutreden Instructies niet gevolgd16 Met foutreden Extra opmaak12

189/189

Rang	Model	Bedrijf	Programmeren-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
Totaal tests 3 Foute tests 2 Totale kosten $0.013 Responstijd (gem.) 831ms
#112	Gemini 3.1 Flash Lite none	Google	5.5	6.1	$0.013	1/3	938ms
Totaal tests 3 Foute tests 2 Totale kosten $0.013 Responstijd (gem.) 938ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
Totaal tests 3 Foute tests 2 Totale kosten $0.005 Responstijd (gem.) 850ms
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
Totaal tests 3 Foute tests 2 Totale kosten $0.004 Responstijd (gem.) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.5	6.1	$0.027	1/3	1.02s
Totaal tests 3 Foute tests 2 Totale kosten $0.027 Responstijd (gem.) 1.02s
#117	GPT-5.6 Terra none	OpenAI	5.5	6.0	$0.130	1/3	1.00s
Totaal tests 3 Foute tests 2 Totale kosten $0.130 Responstijd (gem.) 1.00s
#120	Qwen3.5-35B-A3B none	Qwen	5.5	5.9	$0.012	1/3	1.39s
Totaal tests 3 Foute tests 2 Totale kosten $0.012 Responstijd (gem.) 1.39s
#122	GLM 5V Turbo none	Z.ai	5.5	5.9	$0.052	1/3	3.13s
Totaal tests 3 Foute tests 2 Totale kosten $0.052 Responstijd (gem.) 3.13s
#126	Mimo V2 PRO none	Xiaomi	5.5	5.8	$0.045	1/3	2.65s
Totaal tests 3 Foute tests 2 Totale kosten $0.045 Responstijd (gem.) 2.65s
#129	GPT-5.4 none	OpenAI	5.5	5.8	$0.122	1/3	1.62s
Totaal tests 3 Foute tests 2 Totale kosten $0.122 Responstijd (gem.) 1.62s
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
Totaal tests 3 Foute tests 2 Totale kosten $0.027 Responstijd (gem.) 24.6s
#138	Qwen3.6 27B none	Qwen	5.5	5.5	$0.025	1/3	4.16s
Totaal tests 3 Foute tests 2 Totale kosten $0.025 Responstijd (gem.) 4.16s
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
Totaal tests 3 Foute tests 2 Totale kosten $0.038 Responstijd (gem.) 913ms
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
Totaal tests 3 Foute tests 2 Totale kosten $0.031 Responstijd (gem.) 8.77s
#154	MiMo-V2.5 none	Xiaomi	5.5	5.1	$0.006	1/3	3.24s
Totaal tests 3 Foute tests 2 Totale kosten $0.006 Responstijd (gem.) 3.24s

Programmeren-ranglijst

Modellen filteren

Topmodellen op Programmeren-score

Programmeren-score vs totale kosten

Topmodellen op Responstijd (gem.)