Ranglijst voor Instructies opvolgen x Instructies niet gevolgd

Zie welke AI-modellen op Instructies opvolgen het meest kans hebben op Instructies niet gevolgd, zodat je zwakke punten sneller ziet. Sorteren op: Correcte tests ↓.

Getoonde modellen

Totaal fouten

Meest getroffen model

Muse Spark 1.1 1

Foutredenen

Verkeerd antwoord61 Instructies niet gevolgd18 Extra opmaak3 Geen antwoord2 API-fout1 Time-out1

Categorieën

Puzzeloplossing90 Algemene intelligentie78 Anti-AI-trucs33 Instructies opvolgen18 Programmeren16 Toolaanroepen8 Domeinspecifiek1 Gecombineerd1

18/18

Rang	Model	Bedrijf	Instructies niet gevolgd-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
Totaal tests 2 Foute tests 1 Totale kosten $1.357 Responstijd (gem.) 6.31s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
Totaal tests 2 Foute tests 1 Totale kosten $0.647 Responstijd (gem.) 5.42s
#27	Muse Spark 1.1 high	Meta	1	6.4	$1.694	1/2	7.81s
Totaal tests 2 Foute tests 1 Totale kosten $1.694 Responstijd (gem.) 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.8	$0.200	1/2	8.73s
Totaal tests 2 Foute tests 1 Totale kosten $0.200 Responstijd (gem.) 8.73s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
Totaal tests 2 Foute tests 1 Totale kosten $0.524 Responstijd (gem.) 1.33s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
Totaal tests 2 Foute tests 1 Totale kosten $0.249 Responstijd (gem.) 2.04s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
Totaal tests 2 Foute tests 1 Totale kosten $0.108 Responstijd (gem.) 4.78s
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
Totaal tests 2 Foute tests 1 Totale kosten $0.349 Responstijd (gem.) 1.15s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
Totaal tests 2 Foute tests 1 Totale kosten $0.683 Responstijd (gem.) 4.99s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
Totaal tests 2 Foute tests 1 Totale kosten $0.050 Responstijd (gem.) 6.97s
#185	Grok 4.1 Fast medium	X AI	1	6.5	$0.069	1/2	4.63s
Totaal tests 2 Foute tests 1 Totale kosten $0.069 Responstijd (gem.) 4.63s
#190	MiniMax M2.5 medium	Minimax	1	7.5	$0.340	1/2	621ms
Totaal tests 2 Foute tests 1 Totale kosten $0.340 Responstijd (gem.) 621ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	1.37s
Totaal tests 2 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 1.37s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
Totaal tests 2 Foute tests 2 Totale kosten $0.163 Responstijd (gem.) 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
Totaal tests 2 Foute tests 2 Totale kosten $0.008 Responstijd (gem.) 822ms

Modellen filteren

Topmodellen op Instructies niet gevolgd-aantal

Instructies niet gevolgd-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Instructies opvolgen: Instructies niet gevolgd

Modellen filteren

Topmodellen op Instructies niet gevolgd-aantal

Instructies niet gevolgd-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten