Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

LFM2-24B-A2B 9

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#186	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Totaal tests 22 Foute tests 18 Totale kosten $0.041 Responstijd (gem.) 2.57s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
Totaal tests 22 Foute tests 13 Totale kosten $0.026 Responstijd (gem.) 55.1s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
Totaal tests 22 Foute tests 16 Totale kosten $0.002 Responstijd (gem.) 10.7s
#183	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
Totaal tests 22 Foute tests 17 Totale kosten $0.008 Responstijd (gem.) 5.97s
#182	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
Totaal tests 22 Foute tests 16 Totale kosten $0.016 Responstijd (gem.) 9.15s
#181	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
Totaal tests 19 Foute tests 10 Totale kosten $0.000 Responstijd (gem.) 15.2s
#180	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Totaal tests 22 Foute tests 17 Totale kosten $0.010 Responstijd (gem.) 1.99s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
Totaal tests 22 Foute tests 16 Totale kosten $0.054 Responstijd (gem.) 18.3s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
Totaal tests 22 Foute tests 17 Totale kosten $0.163 Responstijd (gem.) 41.3s
#177	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
Totaal tests 22 Foute tests 18 Totale kosten $0.000 Responstijd (gem.) 29.9s
#176	GLM 5 Turbo none	Z.ai	13	5.1	$0.047	6/21	2.82s
Totaal tests 21 Foute tests 15 Totale kosten $0.047 Responstijd (gem.) 2.82s
#175	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Totaal tests 22 Foute tests 18 Totale kosten $0.021 Responstijd (gem.) 19.2s
#174	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Totaal tests 22 Foute tests 17 Totale kosten $0.025 Responstijd (gem.) 4.62s
#173	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Totaal tests 22 Foute tests 17 Totale kosten $0.096 Responstijd (gem.) 10.8s
#172	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Totaal tests 22 Foute tests 17 Totale kosten $0.025 Responstijd (gem.) 9.12s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)