Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Aantal fouten ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Gemini 3.6 Flash 1

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Totaal tests 19 Foute tests 10 Totale kosten $0.069 Responstijd (gem.) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
Totaal tests 19 Foute tests 10 Totale kosten $0.033 Responstijd (gem.) 14.7s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Totaal tests 22 Foute tests 7 Totale kosten $1.533 Responstijd (gem.) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Totaal tests 22 Foute tests 6 Totale kosten $1.143 Responstijd (gem.) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Totaal tests 22 Foute tests 10 Totale kosten $0.237 Responstijd (gem.) 27.6s
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Totaal tests 22 Foute tests 8 Totale kosten $0.515 Responstijd (gem.) 26.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Totaal tests 22 Foute tests 8 Totale kosten $0.234 Responstijd (gem.) 48.5s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Totaal tests 22 Foute tests 7 Totale kosten $0.267 Responstijd (gem.) 51.5s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
Totaal tests 22 Foute tests 7 Totale kosten $0.405 Responstijd (gem.) 43.1s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Totaal tests 22 Foute tests 8 Totale kosten $1.097 Responstijd (gem.) 52.1s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
Totaal tests 22 Foute tests 10 Totale kosten $0.740 Responstijd (gem.) 84.2s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Totaal tests 22 Foute tests 10 Totale kosten $0.661 Responstijd (gem.) 8.12s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Totaal tests 22 Foute tests 8 Totale kosten $1.046 Responstijd (gem.) 64.2s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Totaal tests 22 Foute tests 9 Totale kosten $0.779 Responstijd (gem.) 47.4s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Totaal tests 22 Foute tests 11 Totale kosten $0.078 Responstijd (gem.) 68.6s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)