Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Mercury 2 17

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Totaal tests 21 Foute tests 13 Totale kosten $0.021 Responstijd (gem.) 2.44s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
Totaal tests 18 Foute tests 12 Totale kosten $0.087 Responstijd (gem.) 1.19s
#198	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Totaal tests 19 Foute tests 15 Totale kosten $0.009 Responstijd (gem.) 2.89s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Totaal tests 18 Foute tests 12 Totale kosten $0.057 Responstijd (gem.) 1.11s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Totaal tests 22 Foute tests 11 Totale kosten $0.467 Responstijd (gem.) 24.0s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
Totaal tests 22 Foute tests 10 Totale kosten $0.145 Responstijd (gem.) 2.25s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Totaal tests 22 Foute tests 10 Totale kosten $0.369 Responstijd (gem.) 6.01s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
Totaal tests 22 Foute tests 10 Totale kosten $0.621 Responstijd (gem.) 16.3s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Totaal tests 22 Foute tests 12 Totale kosten $0.021 Responstijd (gem.) 5.34s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.019 Responstijd (gem.) 21.9s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.114 Responstijd (gem.) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Totaal tests 22 Foute tests 13 Totale kosten $0.000 Responstijd (gem.) 137.1s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
Totaal tests 22 Foute tests 15 Totale kosten $0.077 Responstijd (gem.) 15.9s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
Totaal tests 22 Foute tests 16 Totale kosten $0.002 Responstijd (gem.) 10.7s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
Totaal tests 21 Foute tests 14 Totale kosten $0.000 Responstijd (gem.) 39.9s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)