Modelranglijst voor Instructies opvolgen

Zie welke AI-modellen het best presteren op Instructies opvolgen, welke betrouwbaar blijven en waar de grootste verschillen zitten. Sorteren op: Metriek ↑.

Getoonde modellen

Gemiddelde Instructies opvolgen-score

8.6

Beste model

Grok 4.1 Fast 3.0

Foutredenen

Met foutreden Verkeerd antwoord61 Met foutreden Instructies niet gevolgd19 Met foutreden Extra opmaak3 Met foutreden Geen antwoord2 Met foutreden API-fout1 Met foutreden Time-out1

216/216

Rang	Model	Bedrijf	Instructies opvolgen-score	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
Totaal tests 2 Foute tests 1 Totale kosten $0.469 Responstijd (gem.) 6.96s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
Totaal tests 2 Foute tests 1 Totale kosten $0.044 Responstijd (gem.) 2.82s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
Totaal tests 2 Foute tests 1 Totale kosten $0.021 Responstijd (gem.) 2.84s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
Totaal tests 2 Foute tests 1 Totale kosten $0.184 Responstijd (gem.) 1.64s
#145	GPT-5.4 none	OpenAI	6.5	5.8	$0.397	1/2	1.07s
Totaal tests 2 Foute tests 1 Totale kosten $0.397 Responstijd (gem.) 1.07s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
Totaal tests 2 Foute tests 1 Totale kosten $0.052 Responstijd (gem.) 1.97s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
Totaal tests 2 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 10.2s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
Totaal tests 2 Foute tests 1 Totale kosten $0.045 Responstijd (gem.) 2.51s
#156	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.042	1/2	17.5s
Totaal tests 2 Foute tests 1 Totale kosten $0.042 Responstijd (gem.) 17.5s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
Totaal tests 2 Foute tests 1 Totale kosten $0.127 Responstijd (gem.) 2.67s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
Totaal tests 2 Foute tests 1 Totale kosten $0.021 Responstijd (gem.) 4.26s
#171	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
Totaal tests 2 Foute tests 1 Totale kosten $0.022 Responstijd (gem.) 380ms
#174	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
Totaal tests 2 Foute tests 1 Totale kosten $0.025 Responstijd (gem.) 751ms
#175	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
Totaal tests 2 Foute tests 1 Totale kosten $0.021 Responstijd (gem.) 514ms
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
Totaal tests 2 Foute tests 1 Totale kosten $0.047 Responstijd (gem.) 2.13s

Instructies opvolgen-ranglijst

Modellen filteren

Topmodellen op Instructies opvolgen-score

Instructies opvolgen-score vs totale kosten

Topmodellen op Responstijd (gem.)