Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↑.

Getoonde modellen

Totaal fouten

1558

Meest getroffen model

LFM2-24B-A2B 9

Categorieën

In categorie Domeinspecifiek412 In categorie Anti-AI-trucs293 In categorie Programmeren252 In categorie Puzzeloplossing201 In categorie Algemene kennis168 In categorie Gecombineerd68 In categorie Instructies opvolgen61 In categorie Algemene intelligentie59 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

209/209

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#210	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
Totaal tests 16 Foute tests 14 Totale kosten $0.001 Responstijd (gem.) 782ms
#209	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Totaal tests 12 Foute tests 6 Totale kosten $0.020 Responstijd (gem.) 39.0s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
Totaal tests 19 Foute tests 17 Totale kosten $0.000 Responstijd (gem.) 728ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
Totaal tests 19 Foute tests 15 Totale kosten $0.000 Responstijd (gem.) 17.1s
#206	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
Totaal tests 19 Foute tests 13 Totale kosten $0.010 Responstijd (gem.) 21.6s
#205	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
Totaal tests 19 Foute tests 14 Totale kosten $0.004 Responstijd (gem.) 806ms
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Totaal tests 22 Foute tests 19 Totale kosten $0.036 Responstijd (gem.) 82.2s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
Totaal tests 19 Foute tests 16 Totale kosten $0.008 Responstijd (gem.) 1.62s
#202	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Totaal tests 19 Foute tests 12 Totale kosten $0.547 Responstijd (gem.) 28.7s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
Totaal tests 22 Foute tests 20 Totale kosten $0.007 Responstijd (gem.) 1.45s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Totaal tests 21 Foute tests 17 Totale kosten $0.025 Responstijd (gem.) 2.76s
#199	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
Totaal tests 21 Foute tests 17 Totale kosten $0.003 Responstijd (gem.) 12.9s
#198	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Totaal tests 19 Foute tests 13 Totale kosten $0.015 Responstijd (gem.) 6.73s
#197	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Totaal tests 18 Foute tests 12 Totale kosten $0.057 Responstijd (gem.) 1.11s
#196	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Totaal tests 18 Foute tests 12 Totale kosten $0.000 Responstijd (gem.) 4.70s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)