Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
Totaal tests 21 Foute tests 7 Totale kosten $0.385 Responstijd (gem.) 9.05s
#172	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Totaal tests 22 Foute tests 17 Totale kosten $0.025 Responstijd (gem.) 9.12s
#182	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
Totaal tests 22 Foute tests 16 Totale kosten $0.016 Responstijd (gem.) 9.15s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
Totaal tests 22 Foute tests 10 Totale kosten $0.128 Responstijd (gem.) 9.34s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
Totaal tests 22 Foute tests 8 Totale kosten $0.584 Responstijd (gem.) 9.48s
#193	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
Totaal tests 22 Foute tests 18 Totale kosten $0.032 Responstijd (gem.) 9.61s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
Totaal tests 18 Foute tests 10 Totale kosten $5.599 Responstijd (gem.) 9.69s
#137	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
Totaal tests 18 Foute tests 4 Totale kosten $0.750 Responstijd (gem.) 9.75s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Totaal tests 22 Foute tests 12 Totale kosten $0.073 Responstijd (gem.) 9.85s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Totaal tests 21 Foute tests 14 Totale kosten $0.000 Responstijd (gem.) 9.88s
#83	Gemini 3.5 Flash none	Google	3	7.0	$1.079	15/22	9.93s
Totaal tests 22 Foute tests 7 Totale kosten $1.079 Responstijd (gem.) 9.93s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
Totaal tests 22 Foute tests 15 Totale kosten $0.041 Responstijd (gem.) 10.1s
#1	Gemini 3.6 Flash medium	Google	1	9.9	$0.831	21/22	10.1s
Totaal tests 22 Foute tests 1 Totale kosten $0.831 Responstijd (gem.) 10.1s
#9	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Totaal tests 22 Foute tests 3 Totale kosten $1.253 Responstijd (gem.) 10.1s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
Totaal tests 18 Foute tests 10 Totale kosten $0.000 Responstijd (gem.) 10.3s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)