Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Aantal fouten ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Gemini 3.6 Flash 1

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
Totaal tests 22 Foute tests 10 Totale kosten $0.478 Responstijd (gem.) 136.6s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Totaal tests 22 Foute tests 9 Totale kosten $0.115 Responstijd (gem.) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Totaal tests 22 Foute tests 9 Totale kosten $0.117 Responstijd (gem.) 4.27s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Totaal tests 21 Foute tests 10 Totale kosten $0.457 Responstijd (gem.) 23.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
Totaal tests 22 Foute tests 9 Totale kosten $0.646 Responstijd (gem.) 16.7s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Totaal tests 22 Foute tests 10 Totale kosten $0.052 Responstijd (gem.) 1.58s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Totaal tests 22 Foute tests 14 Totale kosten $0.548 Responstijd (gem.) 6.04s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
Totaal tests 22 Foute tests 15 Totale kosten $0.041 Responstijd (gem.) 10.1s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
Totaal tests 22 Foute tests 16 Totale kosten $0.054 Responstijd (gem.) 18.3s
#196	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Totaal tests 22 Foute tests 17 Totale kosten $0.340 Responstijd (gem.) 68.3s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Totaal tests 19 Foute tests 12 Totale kosten $0.547 Responstijd (gem.) 28.7s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
Totaal tests 19 Foute tests 15 Totale kosten $0.000 Responstijd (gem.) 17.1s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Totaal tests 22 Foute tests 8 Totale kosten $0.676 Responstijd (gem.) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Totaal tests 22 Foute tests 8 Totale kosten $0.352 Responstijd (gem.) 7.28s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
Totaal tests 22 Foute tests 10 Totale kosten $0.138 Responstijd (gem.) 13.2s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)