Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Correcte tests ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Granite 4.1 8B 13

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Totaal tests 22 Foute tests 10 Totale kosten $0.052 Responstijd (gem.) 1.58s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Totaal tests 22 Foute tests 10 Totale kosten $0.139 Responstijd (gem.) 84.8s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
Totaal tests 18 Foute tests 8 Totale kosten $2.044 Responstijd (gem.) 62.0s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Totaal tests 21 Foute tests 9 Totale kosten $0.333 Responstijd (gem.) 22.2s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Totaal tests 21 Foute tests 9 Totale kosten $0.043 Responstijd (gem.) 20.1s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Totaal tests 22 Foute tests 9 Totale kosten $0.647 Responstijd (gem.) 11.5s
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Totaal tests 22 Foute tests 9 Totale kosten $3.059 Responstijd (gem.) 34.3s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Totaal tests 22 Foute tests 9 Totale kosten $0.041 Responstijd (gem.) 49.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Totaal tests 22 Foute tests 9 Totale kosten $0.774 Responstijd (gem.) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Totaal tests 22 Foute tests 9 Totale kosten $0.571 Responstijd (gem.) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Totaal tests 22 Foute tests 9 Totale kosten $0.519 Responstijd (gem.) 5.31s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
Totaal tests 22 Foute tests 9 Totale kosten $1.627 Responstijd (gem.) 111.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Totaal tests 22 Foute tests 9 Totale kosten $0.115 Responstijd (gem.) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Totaal tests 22 Foute tests 9 Totale kosten $0.117 Responstijd (gem.) 4.27s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
Totaal tests 22 Foute tests 9 Totale kosten $1.166 Responstijd (gem.) 4.91s

←

1 9 10 11 15

→

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)