Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest.

Getoonde modellen

Totaal fouten

1523

Meest getroffen model

Mercury 2 17

Categorieën

In categorie Domeinspecifiek404 In categorie Anti-AI-trucs290 In categorie Programmeren249 In categorie Puzzeloplossing193 In categorie Algemene kennis165 In categorie Gecombineerd67 In categorie Instructies opvolgen57 In categorie Algemene intelligentie55 In categorie Gegevensparsering en extractie40 In categorie Toolaanroepen3

205/205

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
Totaal tests 22 Foute tests 18 Totale kosten $0.030 Responstijd (gem.) 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Totaal tests 22 Foute tests 17 Totale kosten $0.022 Responstijd (gem.) 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
Totaal tests 22 Foute tests 16 Totale kosten $0.127 Responstijd (gem.) 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Totaal tests 22 Foute tests 17 Totale kosten $0.010 Responstijd (gem.) 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
Totaal tests 22 Foute tests 17 Totale kosten $0.017 Responstijd (gem.) 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Totaal tests 22 Foute tests 18 Totale kosten $0.041 Responstijd (gem.) 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Totaal tests 22 Foute tests 15 Totale kosten $0.397 Responstijd (gem.) 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
Totaal tests 22 Foute tests 16 Totale kosten $0.142 Responstijd (gem.) 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Totaal tests 22 Foute tests 17 Totale kosten $0.008 Responstijd (gem.) 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Totaal tests 22 Foute tests 17 Totale kosten $0.025 Responstijd (gem.) 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Totaal tests 22 Foute tests 17 Totale kosten $0.025 Responstijd (gem.) 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Totaal tests 22 Foute tests 18 Totale kosten $0.021 Responstijd (gem.) 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Totaal tests 22 Foute tests 14 Totale kosten $0.066 Responstijd (gem.) 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Totaal tests 22 Foute tests 14 Totale kosten $0.073 Responstijd (gem.) 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Totaal tests 22 Foute tests 16 Totale kosten $0.095 Responstijd (gem.) 1.53s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)