Foutenranglijst voor Instructies niet gevolgd

Zie welke AI-modellen het vaakst tegen Instructies niet gevolgd aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↓.

Getoonde modellen

Totaal fouten

245

Meest getroffen model

Step 3.5 Flash 3

Categorieën

In categorie Puzzeloplossing90 In categorie Algemene intelligentie78 In categorie Anti-AI-trucs33 In categorie Instructies opvolgen18 In categorie Programmeren16 In categorie Toolaanroepen8 In categorie Domeinspecifiek1 In categorie Gecombineerd1

140/140

Rang	Model	Bedrijf	Instructies niet gevolgd-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#108	Ring-2.6-1T medium	Inclusionai	2	6.3	$0.103	11/22	68.7s
Totaal tests 22 Foute tests 11 Totale kosten $0.103 Responstijd (gem.) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
Totaal tests 22 Foute tests 11 Totale kosten $0.078 Responstijd (gem.) 68.6s
#190	MiniMax M2.5 medium	Minimax	3	4.6	$0.340	5/22	68.3s
Totaal tests 22 Foute tests 17 Totale kosten $0.340 Responstijd (gem.) 68.3s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
Totaal tests 16 Foute tests 3 Totale kosten $2.310 Responstijd (gem.) 68.1s
#28	Inkling high	Thinkingmachines	1	8.0	$1.006	15/22	64.2s
Totaal tests 22 Foute tests 7 Totale kosten $1.006 Responstijd (gem.) 64.2s
#31	GLM 5.2 high	Z.ai	1	8.0	$0.970	14/22	62.7s
Totaal tests 22 Foute tests 8 Totale kosten $0.970 Responstijd (gem.) 62.7s
#143	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
Totaal tests 18 Foute tests 8 Totale kosten $2.044 Responstijd (gem.) 62.0s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
Totaal tests 22 Foute tests 9 Totale kosten $0.746 Responstijd (gem.) 58.1s
#179	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
Totaal tests 22 Foute tests 13 Totale kosten $0.026 Responstijd (gem.) 55.1s
#128	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.114 Responstijd (gem.) 54.9s
#140	Nemotron 3 Super medium	NVIDIA	3	5.7	$0.050	8/22	52.0s
Totaal tests 22 Foute tests 14 Totale kosten $0.050 Responstijd (gem.) 52.0s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
Totaal tests 22 Foute tests 9 Totale kosten $0.042 Responstijd (gem.) 49.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
Totaal tests 22 Foute tests 8 Totale kosten $0.234 Responstijd (gem.) 48.5s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
Totaal tests 22 Foute tests 9 Totale kosten $0.779 Responstijd (gem.) 47.4s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
Totaal tests 22 Foute tests 10 Totale kosten $0.738 Responstijd (gem.) 44.7s

Instructies niet gevolgd-fouten

Modellen filteren

Topmodellen op Instructies niet gevolgd-aantal

Instructies niet gevolgd-aantal vs Score

Topmodellen op Responstijd (gem.)