Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

LFM2-24B-A2B 9

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
Totaal tests 21 Foute tests 10 Totale kosten $0.048 Responstijd (gem.) 56.6s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
Totaal tests 21 Foute tests 11 Totale kosten $0.683 Responstijd (gem.) 41.2s
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
Totaal tests 21 Foute tests 7 Totale kosten $0.385 Responstijd (gem.) 9.05s
#138	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Totaal tests 22 Foute tests 14 Totale kosten $0.349 Responstijd (gem.) 1.65s
#137	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
Totaal tests 18 Foute tests 4 Totale kosten $0.750 Responstijd (gem.) 9.75s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
Totaal tests 21 Foute tests 10 Totale kosten $0.108 Responstijd (gem.) 174.2s
#135	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
Totaal tests 22 Foute tests 14 Totale kosten $0.095 Responstijd (gem.) 3.87s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.114 Responstijd (gem.) 54.9s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Totaal tests 22 Foute tests 15 Totale kosten $0.106 Responstijd (gem.) 12.7s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
Totaal tests 22 Foute tests 14 Totale kosten $0.122 Responstijd (gem.) 13.6s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Totaal tests 22 Foute tests 14 Totale kosten $0.073 Responstijd (gem.) 25.3s
#130	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Totaal tests 22 Foute tests 15 Totale kosten $0.062 Responstijd (gem.) 3.74s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
Totaal tests 22 Foute tests 12 Totale kosten $0.187 Responstijd (gem.) 5.15s
#128	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Totaal tests 22 Foute tests 13 Totale kosten $0.046 Responstijd (gem.) 1.75s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.019 Responstijd (gem.) 21.9s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)