Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↓.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Gemini 3.6 Flash 1

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
Totaal tests 22 Foute tests 10 Totale kosten $0.082 Responstijd (gem.) 32.2s
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.068 Responstijd (gem.) 47.9s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Totaal tests 22 Foute tests 14 Totale kosten $0.090 Responstijd (gem.) 4.76s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
Totaal tests 22 Foute tests 9 Totale kosten $0.646 Responstijd (gem.) 16.7s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
Totaal tests 22 Foute tests 10 Totale kosten $0.621 Responstijd (gem.) 16.3s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Totaal tests 22 Foute tests 10 Totale kosten $0.052 Responstijd (gem.) 1.58s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Totaal tests 22 Foute tests 12 Totale kosten $0.073 Responstijd (gem.) 9.85s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Totaal tests 22 Foute tests 11 Totale kosten $0.103 Responstijd (gem.) 68.7s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Totaal tests 21 Foute tests 9 Totale kosten $0.333 Responstijd (gem.) 22.2s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
Totaal tests 22 Foute tests 8 Totale kosten $0.107 Responstijd (gem.) 75.4s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
Totaal tests 22 Foute tests 15 Totale kosten $0.044 Responstijd (gem.) 5.18s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Totaal tests 22 Foute tests 14 Totale kosten $0.548 Responstijd (gem.) 6.04s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Totaal tests 21 Foute tests 9 Totale kosten $0.043 Responstijd (gem.) 20.1s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Totaal tests 22 Foute tests 10 Totale kosten $0.139 Responstijd (gem.) 84.8s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Totaal tests 22 Foute tests 12 Totale kosten $0.021 Responstijd (gem.) 5.34s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)