Foutenranglijst voor Instructies niet gevolgd

Zie welke AI-modellen het vaakst tegen Instructies niet gevolgd aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↑.

Getoonde modellen

Totaal fouten

245

Meest getroffen model

Nemotron 3 Nano Omni 30b A3b Reasoning 2

Categorieën

In categorie Puzzeloplossing90 In categorie Algemene intelligentie78 In categorie Anti-AI-trucs33 In categorie Instructies opvolgen18 In categorie Programmeren16 In categorie Toolaanroepen8 In categorie Domeinspecifiek1 In categorie Gecombineerd1

140/140

Rang	Model	Bedrijf	Instructies niet gevolgd-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#129	Nemotron 3 Ultra none	NVIDIA	1	6.1	$0.095	8/22	3.87s
Totaal tests 22 Foute tests 14 Totale kosten $0.095 Responstijd (gem.) 3.87s
#154	MiMo-V2.5-Pro none	Xiaomi	4	5.5	$0.068	6/22	4.12s
Totaal tests 22 Foute tests 16 Totale kosten $0.068 Responstijd (gem.) 4.12s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Totaal tests 22 Foute tests 9 Totale kosten $0.117 Responstijd (gem.) 4.27s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
Totaal tests 22 Foute tests 9 Totale kosten $0.115 Responstijd (gem.) 4.61s
#168	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
Totaal tests 22 Foute tests 17 Totale kosten $0.025 Responstijd (gem.) 4.62s
#196	Hunter Alpha none	OpenRouter	2	4.2	$0.000	6/18	4.70s
Totaal tests 18 Foute tests 12 Totale kosten $0.000 Responstijd (gem.) 4.70s
#103	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
Totaal tests 22 Foute tests 14 Totale kosten $0.090 Responstijd (gem.) 4.76s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
Totaal tests 22 Foute tests 9 Totale kosten $1.166 Responstijd (gem.) 4.91s
#117	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
Totaal tests 22 Foute tests 12 Totale kosten $0.249 Responstijd (gem.) 5.04s
#123	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
Totaal tests 22 Foute tests 12 Totale kosten $0.187 Responstijd (gem.) 5.15s
#115	Gemma 4 31B none	Google	1	6.2	$0.035	10/22	5.34s
Totaal tests 22 Foute tests 12 Totale kosten $0.035 Responstijd (gem.) 5.34s
#161	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
Totaal tests 22 Foute tests 18 Totale kosten $0.061 Responstijd (gem.) 5.52s
#177	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
Totaal tests 22 Foute tests 17 Totale kosten $0.008 Responstijd (gem.) 5.97s
#112	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
Totaal tests 22 Foute tests 14 Totale kosten $0.548 Responstijd (gem.) 6.04s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
Totaal tests 22 Foute tests 9 Totale kosten $0.571 Responstijd (gem.) 6.88s

Instructies niet gevolgd-fouten

Modellen filteren

Topmodellen op Instructies niet gevolgd-aantal

Instructies niet gevolgd-aantal vs Score

Topmodellen op Responstijd (gem.)