Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

LFM2-24B-A2B 9

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#171	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Totaal tests 22 Foute tests 17 Totale kosten $0.022 Responstijd (gem.) 1.20s
#170	Inkling none	Thinkingmachines	13	5.2	$0.147	6/22	3.50s
Totaal tests 22 Foute tests 16 Totale kosten $0.147 Responstijd (gem.) 3.50s
#169	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
Totaal tests 16 Foute tests 3 Totale kosten $2.310 Responstijd (gem.) 68.1s
#168	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
Totaal tests 22 Foute tests 18 Totale kosten $0.016 Responstijd (gem.) 8.58s
#167	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
Totaal tests 22 Foute tests 18 Totale kosten $0.061 Responstijd (gem.) 5.52s
#166	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Totaal tests 22 Foute tests 17 Totale kosten $0.008 Responstijd (gem.) 1.55s
#165	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
Totaal tests 22 Foute tests 16 Totale kosten $0.142 Responstijd (gem.) 1.50s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
Totaal tests 22 Foute tests 15 Totale kosten $0.041 Responstijd (gem.) 10.1s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Totaal tests 22 Foute tests 14 Totale kosten $0.015 Responstijd (gem.) 7.64s
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Totaal tests 21 Foute tests 13 Totale kosten $0.021 Responstijd (gem.) 2.44s
#161	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
Totaal tests 22 Foute tests 16 Totale kosten $0.127 Responstijd (gem.) 19.2s
#160	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
Totaal tests 22 Foute tests 16 Totale kosten $0.068 Responstijd (gem.) 4.12s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
Totaal tests 21 Foute tests 11 Totale kosten $0.015 Responstijd (gem.) 24.6s
#158	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
Totaal tests 22 Foute tests 15 Totale kosten $0.087 Responstijd (gem.) 10.7s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Totaal tests 22 Foute tests 15 Totale kosten $0.164 Responstijd (gem.) 6.70s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)