Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

LFM2-24B-A2B 9

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#81	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
Totaal tests 22 Foute tests 12 Totale kosten $0.600 Responstijd (gem.) 99.0s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Totaal tests 22 Foute tests 11 Totale kosten $0.078 Responstijd (gem.) 68.6s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
Totaal tests 22 Foute tests 10 Totale kosten $0.777 Responstijd (gem.) 29.5s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
Totaal tests 22 Foute tests 9 Totale kosten $0.535 Responstijd (gem.) 46.8s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Totaal tests 22 Foute tests 9 Totale kosten $0.779 Responstijd (gem.) 47.4s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Totaal tests 22 Foute tests 8 Totale kosten $1.046 Responstijd (gem.) 64.2s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Totaal tests 22 Foute tests 11 Totale kosten $0.106 Responstijd (gem.) 12.1s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Totaal tests 22 Foute tests 9 Totale kosten $0.317 Responstijd (gem.) 46.4s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Totaal tests 22 Foute tests 11 Totale kosten $0.482 Responstijd (gem.) 20.8s
#72	Kimi K2.6 medium	Moonshot AI	3	7.2	$1.036	12/22	110.0s
Totaal tests 22 Foute tests 10 Totale kosten $1.036 Responstijd (gem.) 110.0s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Totaal tests 22 Foute tests 10 Totale kosten $0.454 Responstijd (gem.) 20.7s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
Totaal tests 22 Foute tests 9 Totale kosten $1.166 Responstijd (gem.) 4.91s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Totaal tests 22 Foute tests 9 Totale kosten $0.117 Responstijd (gem.) 4.27s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Totaal tests 22 Foute tests 9 Totale kosten $0.115 Responstijd (gem.) 4.61s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Totaal tests 22 Foute tests 10 Totale kosten $0.661 Responstijd (gem.) 8.12s

←

1 9 10 11 15

→

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)