Foutenranglijst voor Instructies niet gevolgd

Zie welke AI-modellen het vaakst tegen Instructies niet gevolgd aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↑.

Getoonde modellen

Totaal fouten

246

Meest getroffen model

Nemotron 3 Nano Omni 30b A3b Reasoning 2

Categorieën

In categorie Puzzeloplossing90 In categorie Algemene intelligentie78 In categorie Anti-AI-trucs33 In categorie Instructies opvolgen19 In categorie Programmeren16 In categorie Toolaanroepen8 In categorie Domeinspecifiek1 In categorie Gecombineerd1

141/141

Rang	Model	Bedrijf	Instructies niet gevolgd-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
Totaal tests 22 Foute tests 17 Totale kosten $0.042 Responstijd (gem.) 36.8s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Totaal tests 12 Foute tests 6 Totale kosten $0.020 Responstijd (gem.) 39.0s
#194	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
Totaal tests 21 Foute tests 14 Totale kosten $0.000 Responstijd (gem.) 39.9s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
Totaal tests 21 Foute tests 11 Totale kosten $0.683 Responstijd (gem.) 41.2s
#178	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
Totaal tests 22 Foute tests 17 Totale kosten $0.163 Responstijd (gem.) 41.3s
#41	Qwen3.6 Plus medium	Qwen	1	7.8	$0.405	15/22	43.1s
Totaal tests 22 Foute tests 7 Totale kosten $0.405 Responstijd (gem.) 43.1s
#89	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
Totaal tests 22 Foute tests 10 Totale kosten $0.738 Responstijd (gem.) 44.7s
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
Totaal tests 22 Foute tests 9 Totale kosten $0.779 Responstijd (gem.) 47.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
Totaal tests 22 Foute tests 8 Totale kosten $0.234 Responstijd (gem.) 48.5s
#49	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.041	13/22	49.7s
Totaal tests 22 Foute tests 9 Totale kosten $0.041 Responstijd (gem.) 49.7s
#146	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.055	8/22	52.0s
Totaal tests 22 Foute tests 14 Totale kosten $0.055 Responstijd (gem.) 52.0s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.114 Responstijd (gem.) 54.9s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
Totaal tests 22 Foute tests 13 Totale kosten $0.026 Responstijd (gem.) 55.1s
#94	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
Totaal tests 22 Foute tests 9 Totale kosten $0.746 Responstijd (gem.) 58.1s
#149	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
Totaal tests 18 Foute tests 8 Totale kosten $2.044 Responstijd (gem.) 62.0s

Instructies niet gevolgd-fouten

Modellen filteren

Topmodellen op Instructies niet gevolgd-aantal

Instructies niet gevolgd-aantal vs Score

Topmodellen op Responstijd (gem.)