Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↓.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Step 3.5 Flash 4

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#177	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
Totaal tests 22 Foute tests 18 Totale kosten $0.000 Responstijd (gem.) 29.9s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
Totaal tests 22 Foute tests 10 Totale kosten $0.777 Responstijd (gem.) 29.5s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Totaal tests 19 Foute tests 12 Totale kosten $0.547 Responstijd (gem.) 28.7s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Totaal tests 22 Foute tests 10 Totale kosten $0.237 Responstijd (gem.) 27.6s
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Totaal tests 22 Foute tests 8 Totale kosten $0.515 Responstijd (gem.) 26.4s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
Totaal tests 22 Foute tests 10 Totale kosten $0.756 Responstijd (gem.) 25.9s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Totaal tests 22 Foute tests 8 Totale kosten $2.057 Responstijd (gem.) 25.9s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Totaal tests 22 Foute tests 11 Totale kosten $0.476 Responstijd (gem.) 25.6s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Totaal tests 22 Foute tests 14 Totale kosten $0.073 Responstijd (gem.) 25.3s
#19	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Totaal tests 22 Foute tests 7 Totale kosten $1.357 Responstijd (gem.) 25.0s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
Totaal tests 21 Foute tests 11 Totale kosten $0.015 Responstijd (gem.) 24.6s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Totaal tests 22 Foute tests 11 Totale kosten $0.467 Responstijd (gem.) 24.0s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Totaal tests 19 Foute tests 10 Totale kosten $0.069 Responstijd (gem.) 23.8s
#42	GLM 5.2 medium	Z.ai	3	7.8	$0.187	15/21	23.3s
Totaal tests 21 Foute tests 6 Totale kosten $0.187 Responstijd (gem.) 23.3s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Totaal tests 22 Foute tests 7 Totale kosten $1.533 Responstijd (gem.) 23.1s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)