Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↓.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Step 3.5 Flash 4

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
Totaal tests 19 Foute tests 10 Totale kosten $0.033 Responstijd (gem.) 14.7s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
Totaal tests 22 Foute tests 14 Totale kosten $0.122 Responstijd (gem.) 13.6s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
Totaal tests 22 Foute tests 10 Totale kosten $0.138 Responstijd (gem.) 13.2s
#205	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
Totaal tests 21 Foute tests 17 Totale kosten $0.003 Responstijd (gem.) 12.9s
#148	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
Totaal tests 22 Foute tests 16 Totale kosten $0.247 Responstijd (gem.) 12.9s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Totaal tests 22 Foute tests 6 Totale kosten $2.077 Responstijd (gem.) 12.7s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Totaal tests 22 Foute tests 15 Totale kosten $0.106 Responstijd (gem.) 12.7s
#26	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Totaal tests 22 Foute tests 6 Totale kosten $0.922 Responstijd (gem.) 12.5s
#17	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
Totaal tests 22 Foute tests 4 Totale kosten $1.931 Responstijd (gem.) 12.5s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Totaal tests 22 Foute tests 17 Totale kosten $0.067 Responstijd (gem.) 12.2s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Totaal tests 22 Foute tests 11 Totale kosten $0.106 Responstijd (gem.) 12.1s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Totaal tests 21 Foute tests 13 Totale kosten $0.000 Responstijd (gem.) 11.9s
#8	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Totaal tests 22 Foute tests 4 Totale kosten $1.234 Responstijd (gem.) 11.7s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
Totaal tests 22 Foute tests 12 Totale kosten $0.096 Responstijd (gem.) 11.6s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Totaal tests 22 Foute tests 9 Totale kosten $0.647 Responstijd (gem.) 11.5s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)