Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Mercury 2 17

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
Totaal tests 22 Foute tests 9 Totale kosten $0.085 Responstijd (gem.) 2.95s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
Totaal tests 22 Foute tests 12 Totale kosten $0.391 Responstijd (gem.) 100.3s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
Totaal tests 22 Foute tests 10 Totale kosten $0.128 Responstijd (gem.) 9.34s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Totaal tests 22 Foute tests 12 Totale kosten $0.047 Responstijd (gem.) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
Totaal tests 22 Foute tests 12 Totale kosten $0.187 Responstijd (gem.) 5.15s
#205	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
Totaal tests 21 Foute tests 17 Totale kosten $0.003 Responstijd (gem.) 12.9s
#211	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
Totaal tests 19 Foute tests 14 Totale kosten $0.004 Responstijd (gem.) 806ms
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
Totaal tests 19 Foute tests 13 Totale kosten $0.010 Responstijd (gem.) 21.6s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Totaal tests 22 Foute tests 8 Totale kosten $1.055 Responstijd (gem.) 11.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Totaal tests 22 Foute tests 7 Totale kosten $1.017 Responstijd (gem.) 18.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Totaal tests 22 Foute tests 9 Totale kosten $0.774 Responstijd (gem.) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Totaal tests 22 Foute tests 9 Totale kosten $0.571 Responstijd (gem.) 6.88s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
Totaal tests 22 Foute tests 7 Totale kosten $0.197 Responstijd (gem.) 4.52s
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
Totaal tests 22 Foute tests 10 Totale kosten $0.478 Responstijd (gem.) 136.6s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Totaal tests 22 Foute tests 9 Totale kosten $0.115 Responstijd (gem.) 4.61s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)