Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest.

Getoonde modellen

Totaal fouten

1558

Meest getroffen model

Mercury 2 17

Categorieën

In categorie Domeinspecifiek412 In categorie Anti-AI-trucs293 In categorie Programmeren252 In categorie Puzzeloplossing201 In categorie Algemene kennis168 In categorie Gecombineerd68 In categorie Instructies opvolgen61 In categorie Algemene intelligentie59 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

209/209

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#136	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Totaal tests 22 Foute tests 16 Totale kosten $0.095 Responstijd (gem.) 1.53s
#142	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
Totaal tests 22 Foute tests 16 Totale kosten $0.247 Responstijd (gem.) 12.9s
#151	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Totaal tests 22 Foute tests 15 Totale kosten $0.164 Responstijd (gem.) 6.70s
#161	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
Totaal tests 22 Foute tests 18 Totale kosten $0.061 Responstijd (gem.) 5.52s
#164	Inkling none	Thinkingmachines	13	5.2	$0.147	6/22	3.50s
Totaal tests 22 Foute tests 16 Totale kosten $0.147 Responstijd (gem.) 3.50s
#170	GLM 5 Turbo none	Z.ai	13	5.1	$0.047	6/21	2.82s
Totaal tests 21 Foute tests 15 Totale kosten $0.047 Responstijd (gem.) 2.82s
#176	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
Totaal tests 22 Foute tests 16 Totale kosten $0.016 Responstijd (gem.) 9.15s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Totaal tests 22 Foute tests 17 Totale kosten $0.067 Responstijd (gem.) 12.2s
#187	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
Totaal tests 22 Foute tests 18 Totale kosten $0.032 Responstijd (gem.) 9.61s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Totaal tests 21 Foute tests 17 Totale kosten $0.025 Responstijd (gem.) 2.76s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
Totaal tests 22 Foute tests 20 Totale kosten $0.007 Responstijd (gem.) 1.45s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
Totaal tests 19 Foute tests 16 Totale kosten $0.008 Responstijd (gem.) 1.62s
#103	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Totaal tests 22 Foute tests 14 Totale kosten $0.090 Responstijd (gem.) 4.76s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Totaal tests 22 Foute tests 12 Totale kosten $0.073 Responstijd (gem.) 9.85s
#118	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Totaal tests 22 Foute tests 13 Totale kosten $0.017 Responstijd (gem.) 6.20s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)