Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

LFM2-24B-A2B 9

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Totaal tests 22 Foute tests 12 Totale kosten $0.047 Responstijd (gem.) 1.86s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Totaal tests 22 Foute tests 13 Totale kosten $0.017 Responstijd (gem.) 6.20s
#125	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Totaal tests 22 Foute tests 11 Totale kosten $0.837 Responstijd (gem.) 112.5s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Totaal tests 22 Foute tests 12 Totale kosten $0.249 Responstijd (gem.) 5.04s
#122	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Totaal tests 22 Foute tests 14 Totale kosten $0.066 Responstijd (gem.) 4.40s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Totaal tests 22 Foute tests 12 Totale kosten $0.021 Responstijd (gem.) 5.34s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Totaal tests 22 Foute tests 10 Totale kosten $0.139 Responstijd (gem.) 84.8s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Totaal tests 21 Foute tests 9 Totale kosten $0.043 Responstijd (gem.) 20.1s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Totaal tests 22 Foute tests 14 Totale kosten $0.548 Responstijd (gem.) 6.04s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
Totaal tests 22 Foute tests 15 Totale kosten $0.044 Responstijd (gem.) 5.18s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
Totaal tests 22 Foute tests 8 Totale kosten $0.107 Responstijd (gem.) 75.4s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Totaal tests 21 Foute tests 9 Totale kosten $0.333 Responstijd (gem.) 22.2s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Totaal tests 22 Foute tests 11 Totale kosten $0.103 Responstijd (gem.) 68.7s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Totaal tests 22 Foute tests 12 Totale kosten $0.073 Responstijd (gem.) 9.85s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Totaal tests 22 Foute tests 10 Totale kosten $0.052 Responstijd (gem.) 1.58s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)