Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest.

Getoonde modellen

Totaal fouten

1558

Meest getroffen model

Mercury 2 17

Categorieën

In categorie Domeinspecifiek412 In categorie Anti-AI-trucs293 In categorie Programmeren252 In categorie Puzzeloplossing201 In categorie Algemene kennis168 In categorie Gecombineerd68 In categorie Instructies opvolgen61 In categorie Algemene intelligentie59 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

209/209

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Totaal tests 22 Foute tests 15 Totale kosten $0.062 Responstijd (gem.) 3.74s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
Totaal tests 22 Foute tests 14 Totale kosten $0.122 Responstijd (gem.) 13.6s
#127	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Totaal tests 22 Foute tests 15 Totale kosten $0.106 Responstijd (gem.) 12.7s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
Totaal tests 22 Foute tests 14 Totale kosten $0.095 Responstijd (gem.) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Totaal tests 21 Foute tests 12 Totale kosten $0.041 Responstijd (gem.) 4.03s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
Totaal tests 22 Foute tests 17 Totale kosten $0.044 Responstijd (gem.) 36.8s
#162	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
Totaal tests 22 Foute tests 18 Totale kosten $0.016 Responstijd (gem.) 8.58s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Totaal tests 22 Foute tests 17 Totale kosten $0.096 Responstijd (gem.) 10.8s
#171	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
Totaal tests 22 Foute tests 18 Totale kosten $0.000 Responstijd (gem.) 29.9s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Totaal tests 21 Foute tests 17 Totale kosten $0.008 Responstijd (gem.) 2.98s
#87	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Totaal tests 22 Foute tests 11 Totale kosten $0.544 Responstijd (gem.) 2.36s
#102	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.068 Responstijd (gem.) 47.9s
#122	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Totaal tests 22 Foute tests 13 Totale kosten $0.046 Responstijd (gem.) 1.75s
#132	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Totaal tests 22 Foute tests 14 Totale kosten $0.349 Responstijd (gem.) 1.65s
#138	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Totaal tests 22 Foute tests 15 Totale kosten $0.184 Responstijd (gem.) 19.6s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)