Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↓.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Step 3.5 Flash 4

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Totaal tests 22 Foute tests 8 Totale kosten $0.676 Responstijd (gem.) 7.11s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Totaal tests 22 Foute tests 9 Totale kosten $0.571 Responstijd (gem.) 6.88s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Totaal tests 19 Foute tests 13 Totale kosten $0.015 Responstijd (gem.) 6.73s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Totaal tests 22 Foute tests 15 Totale kosten $0.164 Responstijd (gem.) 6.70s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Totaal tests 22 Foute tests 6 Totale kosten $0.177 Responstijd (gem.) 6.28s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Totaal tests 22 Foute tests 13 Totale kosten $0.017 Responstijd (gem.) 6.20s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Totaal tests 22 Foute tests 14 Totale kosten $0.548 Responstijd (gem.) 6.04s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Totaal tests 22 Foute tests 10 Totale kosten $0.369 Responstijd (gem.) 6.01s
#183	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
Totaal tests 22 Foute tests 17 Totale kosten $0.008 Responstijd (gem.) 5.97s
#14	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Totaal tests 22 Foute tests 3 Totale kosten $0.433 Responstijd (gem.) 5.55s
#167	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
Totaal tests 22 Foute tests 18 Totale kosten $0.061 Responstijd (gem.) 5.52s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Totaal tests 22 Foute tests 12 Totale kosten $0.021 Responstijd (gem.) 5.34s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Totaal tests 22 Foute tests 9 Totale kosten $0.519 Responstijd (gem.) 5.31s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
Totaal tests 22 Foute tests 15 Totale kosten $0.044 Responstijd (gem.) 5.18s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
Totaal tests 22 Foute tests 12 Totale kosten $0.187 Responstijd (gem.) 5.15s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)