Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Totaal tests 22 Foute tests 6 Totale kosten $0.177 Responstijd (gem.) 6.28s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Totaal tests 22 Foute tests 15 Totale kosten $0.164 Responstijd (gem.) 6.70s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Totaal tests 19 Foute tests 13 Totale kosten $0.015 Responstijd (gem.) 6.73s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Totaal tests 22 Foute tests 9 Totale kosten $0.571 Responstijd (gem.) 6.88s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Totaal tests 22 Foute tests 8 Totale kosten $0.676 Responstijd (gem.) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Totaal tests 22 Foute tests 8 Totale kosten $0.352 Responstijd (gem.) 7.28s
#18	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
Totaal tests 22 Foute tests 4 Totale kosten $1.477 Responstijd (gem.) 7.61s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Totaal tests 22 Foute tests 14 Totale kosten $0.015 Responstijd (gem.) 7.64s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Totaal tests 22 Foute tests 8 Totale kosten $0.604 Responstijd (gem.) 7.65s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Totaal tests 22 Foute tests 10 Totale kosten $0.231 Responstijd (gem.) 7.82s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Totaal tests 22 Foute tests 10 Totale kosten $0.661 Responstijd (gem.) 8.12s
#12	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
Totaal tests 22 Foute tests 3 Totale kosten $0.642 Responstijd (gem.) 8.20s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
Totaal tests 22 Foute tests 14 Totale kosten $0.048 Responstijd (gem.) 8.42s
#168	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
Totaal tests 22 Foute tests 18 Totale kosten $0.016 Responstijd (gem.) 8.58s
#5	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Totaal tests 22 Foute tests 4 Totale kosten $0.971 Responstijd (gem.) 8.79s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)