Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↓.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Step 3.5 Flash 4

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Totaal tests 21 Foute tests 10 Totale kosten $0.457 Responstijd (gem.) 23.1s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Totaal tests 21 Foute tests 7 Totale kosten $0.323 Responstijd (gem.) 23.0s
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
Totaal tests 22 Foute tests 8 Totale kosten $0.951 Responstijd (gem.) 22.6s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Totaal tests 21 Foute tests 9 Totale kosten $0.333 Responstijd (gem.) 22.2s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.019 Responstijd (gem.) 21.9s
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
Totaal tests 19 Foute tests 13 Totale kosten $0.010 Responstijd (gem.) 21.6s
#10	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Totaal tests 22 Foute tests 2 Totale kosten $1.361 Responstijd (gem.) 21.5s
#28	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
Totaal tests 22 Foute tests 7 Totale kosten $0.643 Responstijd (gem.) 21.2s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Totaal tests 22 Foute tests 11 Totale kosten $0.482 Responstijd (gem.) 20.8s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Totaal tests 22 Foute tests 10 Totale kosten $0.454 Responstijd (gem.) 20.7s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Totaal tests 21 Foute tests 9 Totale kosten $0.043 Responstijd (gem.) 20.1s
#144	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Totaal tests 22 Foute tests 15 Totale kosten $0.184 Responstijd (gem.) 19.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Totaal tests 22 Foute tests 11 Totale kosten $0.387 Responstijd (gem.) 19.5s
#3	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Totaal tests 22 Foute tests 1 Totale kosten $0.742 Responstijd (gem.) 19.2s
#175	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Totaal tests 22 Foute tests 18 Totale kosten $0.021 Responstijd (gem.) 19.2s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)