Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Correcte tests ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Granite 4.1 8B 13

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
Totaal tests 22 Foute tests 10 Totale kosten $0.138 Responstijd (gem.) 13.2s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
Totaal tests 22 Foute tests 10 Totale kosten $0.756 Responstijd (gem.) 25.9s
#64	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
Totaal tests 22 Foute tests 10 Totale kosten $0.478 Responstijd (gem.) 136.6s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Totaal tests 22 Foute tests 10 Totale kosten $0.661 Responstijd (gem.) 8.12s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Totaal tests 22 Foute tests 10 Totale kosten $0.454 Responstijd (gem.) 20.7s
#72	Kimi K2.6 medium	Moonshot AI	3	7.2	$1.036	12/22	110.0s
Totaal tests 22 Foute tests 10 Totale kosten $1.036 Responstijd (gem.) 110.0s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
Totaal tests 22 Foute tests 10 Totale kosten $0.777 Responstijd (gem.) 29.5s
#88	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
Totaal tests 22 Foute tests 10 Totale kosten $0.187 Responstijd (gem.) 33.9s
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
Totaal tests 22 Foute tests 10 Totale kosten $0.738 Responstijd (gem.) 44.7s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
Totaal tests 22 Foute tests 10 Totale kosten $0.145 Responstijd (gem.) 2.25s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
Totaal tests 22 Foute tests 10 Totale kosten $0.128 Responstijd (gem.) 9.34s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Totaal tests 22 Foute tests 10 Totale kosten $0.231 Responstijd (gem.) 7.82s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Totaal tests 22 Foute tests 10 Totale kosten $0.369 Responstijd (gem.) 6.01s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
Totaal tests 22 Foute tests 10 Totale kosten $0.082 Responstijd (gem.) 32.2s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
Totaal tests 22 Foute tests 10 Totale kosten $0.621 Responstijd (gem.) 16.3s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)