Modelranglijst voor Instructies opvolgen

Zie welke AI-modellen het best presteren op Instructies opvolgen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Metriek ↑.

Getoonde modellen

Gemiddelde Instructies opvolgen-score

8.5

Beste model

Grok 4.1 Fast 3.0

Foutredenen

Met foutreden Verkeerd antwoord61 Met foutreden Instructies niet gevolgd18 Met foutreden Extra opmaak3 Met foutreden Geen antwoord2 Met foutreden API-fout1 Met foutreden Time-out1

210/210

Rang	Model	Bedrijf	Instructies opvolgen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#125	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
Totaal tests 2 Foute tests 1 Totale kosten $0.073 Responstijd (gem.) 8.81s
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
Totaal tests 2 Foute tests 1 Totale kosten $0.106 Responstijd (gem.) 809ms
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
Totaal tests 2 Foute tests 1 Totale kosten $0.095 Responstijd (gem.) 728ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
Totaal tests 2 Foute tests 1 Totale kosten $0.247 Responstijd (gem.) 513ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
Totaal tests 2 Foute tests 1 Totale kosten $0.015 Responstijd (gem.) 690ms
#164	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
Totaal tests 2 Foute tests 1 Totale kosten $0.147 Responstijd (gem.) 1.72s
#166	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.025	1/2	7.78s
Totaal tests 2 Foute tests 1 Totale kosten $0.025 Responstijd (gem.) 7.78s
#174	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
Totaal tests 2 Foute tests 1 Totale kosten $0.010 Responstijd (gem.) 1.11s
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
Totaal tests 2 Foute tests 1 Totale kosten $0.008 Responstijd (gem.) 804ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
Totaal tests 2 Foute tests 1 Totale kosten $0.041 Responstijd (gem.) 784ms
#187	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
Totaal tests 2 Foute tests 1 Totale kosten $0.032 Responstijd (gem.) 7.49s
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
Totaal tests 2 Foute tests 1 Totale kosten $0.087 Responstijd (gem.) 649ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
Totaal tests 2 Foute tests 1 Totale kosten $0.057 Responstijd (gem.) 445ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
Totaal tests 2 Foute tests 1 Totale kosten $0.001 Responstijd (gem.) 752ms
#82	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
Totaal tests 2 Foute tests 1 Totale kosten $0.096 Responstijd (gem.) 4.12s

Instructies opvolgen-ranglijst

Modellen filteren

Topmodellen op Instructies opvolgen-score

Instructies opvolgen-score vs totale kosten

Topmodellen op Responstijd (gem.)