Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

LFM2-24B-A2B 9

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#156	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.042	5/22	36.8s
Totaal tests 22 Foute tests 17 Totale kosten $0.042 Responstijd (gem.) 36.8s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
Totaal tests 22 Foute tests 14 Totale kosten $0.048 Responstijd (gem.) 8.42s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Totaal tests 21 Foute tests 14 Totale kosten $0.000 Responstijd (gem.) 9.88s
#153	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Totaal tests 21 Foute tests 14 Totale kosten $0.045 Responstijd (gem.) 2.27s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Totaal tests 21 Foute tests 13 Totale kosten $0.000 Responstijd (gem.) 11.9s
#151	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Totaal tests 21 Foute tests 13 Totale kosten $0.052 Responstijd (gem.) 2.99s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
Totaal tests 22 Foute tests 15 Totale kosten $0.077 Responstijd (gem.) 15.9s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
Totaal tests 18 Foute tests 8 Totale kosten $2.044 Responstijd (gem.) 62.0s
#148	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
Totaal tests 22 Foute tests 16 Totale kosten $0.247 Responstijd (gem.) 12.9s
#147	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Totaal tests 21 Foute tests 12 Totale kosten $0.041 Responstijd (gem.) 4.03s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
Totaal tests 22 Foute tests 14 Totale kosten $0.055 Responstijd (gem.) 52.0s
#145	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Totaal tests 22 Foute tests 15 Totale kosten $0.397 Responstijd (gem.) 2.07s
#144	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Totaal tests 22 Foute tests 15 Totale kosten $0.184 Responstijd (gem.) 19.6s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Totaal tests 22 Foute tests 13 Totale kosten $0.000 Responstijd (gem.) 137.1s
#142	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Totaal tests 22 Foute tests 16 Totale kosten $0.095 Responstijd (gem.) 1.53s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)