Foutenranglijst voor Instructies niet gevolgd

Zie welke AI-modellen het vaakst tegen Instructies niet gevolgd aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest.

Getoonde modellen

Totaal fouten

245

Meest getroffen model

MiniMax M2.7 5

Categorieën

In categorie Puzzeloplossing90 In categorie Algemene intelligentie78 In categorie Anti-AI-trucs33 In categorie Instructies opvolgen18 In categorie Programmeren16 In categorie Toolaanroepen8 In categorie Domeinspecifiek1 In categorie Gecombineerd1

140/140

Rang	Model	Bedrijf	Instructies niet gevolgd-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
Totaal tests 18 Foute tests 8 Totale kosten $2.044 Responstijd (gem.) 62.0s
#148	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
Totaal tests 21 Foute tests 14 Totale kosten $0.000 Responstijd (gem.) 9.88s
#183	Trinity Large Preview none	Arcee AI	3	4.8	$0.008	4/21	2.98s
Totaal tests 21 Foute tests 17 Totale kosten $0.008 Responstijd (gem.) 2.98s
#187	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
Totaal tests 22 Foute tests 18 Totale kosten $0.032 Responstijd (gem.) 9.61s
#188	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
Totaal tests 21 Foute tests 14 Totale kosten $0.000 Responstijd (gem.) 39.9s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
Totaal tests 22 Foute tests 17 Totale kosten $0.340 Responstijd (gem.) 68.3s
#193	Elephant Alpha none	Openrouter	3	4.3	$0.000	5/21	1.22s
Totaal tests 21 Foute tests 16 Totale kosten $0.000 Responstijd (gem.) 1.22s
#203	Grok 4.1 Fast none	X AI	3	3.8	$0.008	3/19	1.62s
Totaal tests 19 Foute tests 16 Totale kosten $0.008 Responstijd (gem.) 1.62s
#13	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
Totaal tests 22 Foute tests 6 Totale kosten $0.920 Responstijd (gem.) 17.0s
#16	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
Totaal tests 22 Foute tests 7 Totale kosten $1.357 Responstijd (gem.) 25.0s
#18	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
Totaal tests 22 Foute tests 7 Totale kosten $1.533 Responstijd (gem.) 23.1s
#24	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
Totaal tests 22 Foute tests 9 Totale kosten $0.647 Responstijd (gem.) 11.5s
#27	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
Totaal tests 22 Foute tests 10 Totale kosten $1.694 Responstijd (gem.) 31.5s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
Totaal tests 22 Foute tests 8 Totale kosten $0.234 Responstijd (gem.) 48.5s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
Totaal tests 22 Foute tests 9 Totale kosten $0.042 Responstijd (gem.) 49.7s

Instructies niet gevolgd-fouten

Modellen filteren

Topmodellen op Instructies niet gevolgd-aantal

Instructies niet gevolgd-aantal vs Score

Topmodellen op Responstijd (gem.)