Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Aantal fouten ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Gemini 3.6 Flash 1

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#216	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
Totaal tests 16 Foute tests 14 Totale kosten $0.001 Responstijd (gem.) 782ms
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Totaal tests 22 Foute tests 11 Totale kosten $0.387 Responstijd (gem.) 19.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Totaal tests 22 Foute tests 11 Totale kosten $0.482 Responstijd (gem.) 20.8s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Totaal tests 22 Foute tests 11 Totale kosten $0.106 Responstijd (gem.) 12.1s
#87	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Totaal tests 22 Foute tests 11 Totale kosten $0.524 Responstijd (gem.) 2.16s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Totaal tests 22 Foute tests 11 Totale kosten $0.476 Responstijd (gem.) 25.6s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Totaal tests 22 Foute tests 10 Totale kosten $0.231 Responstijd (gem.) 7.82s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Totaal tests 22 Foute tests 12 Totale kosten $0.249 Responstijd (gem.) 5.04s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Totaal tests 21 Foute tests 13 Totale kosten $0.000 Responstijd (gem.) 11.9s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Totaal tests 21 Foute tests 14 Totale kosten $0.000 Responstijd (gem.) 9.88s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Totaal tests 22 Foute tests 14 Totale kosten $0.015 Responstijd (gem.) 7.64s
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Totaal tests 21 Foute tests 13 Totale kosten $0.021 Responstijd (gem.) 2.44s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
Totaal tests 18 Foute tests 12 Totale kosten $0.087 Responstijd (gem.) 1.19s
#198	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Totaal tests 19 Foute tests 15 Totale kosten $0.009 Responstijd (gem.) 2.89s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Totaal tests 18 Foute tests 12 Totale kosten $0.057 Responstijd (gem.) 1.11s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)