Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↓.

Getoonde modellen

Totaal fouten

1642

Meest getroffen model

Gemini 3.6 Flash 1

Categorieën

In categorie Domeinspecifiek433 In categorie Anti-AI-trucs306 In categorie Programmeren266 In categorie Puzzeloplossing214 In categorie Algemene kennis176 In categorie Gecombineerd71 In categorie Algemene intelligentie66 In categorie Instructies opvolgen65 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen4

219/219

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Totaal tests 22 Foute tests 9 Totale kosten $3.059 Responstijd (gem.) 34.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Totaal tests 22 Foute tests 7 Totale kosten $1.017 Responstijd (gem.) 18.7s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.042	13/22	49.7s
Totaal tests 22 Foute tests 9 Totale kosten $0.042 Responstijd (gem.) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Totaal tests 22 Foute tests 12 Totale kosten $0.200 Responstijd (gem.) 79.1s
#51	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
Totaal tests 22 Foute tests 10 Totale kosten $0.286 Responstijd (gem.) 75.0s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Totaal tests 22 Foute tests 8 Totale kosten $1.097 Responstijd (gem.) 52.1s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Totaal tests 21 Foute tests 7 Totale kosten $0.323 Responstijd (gem.) 23.0s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Totaal tests 22 Foute tests 8 Totale kosten $0.352 Responstijd (gem.) 7.28s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Totaal tests 22 Foute tests 9 Totale kosten $0.774 Responstijd (gem.) 32.2s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
Totaal tests 22 Foute tests 10 Totale kosten $0.740 Responstijd (gem.) 84.2s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
Totaal tests 22 Foute tests 10 Totale kosten $0.138 Responstijd (gem.) 13.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Totaal tests 22 Foute tests 9 Totale kosten $0.571 Responstijd (gem.) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Totaal tests 22 Foute tests 9 Totale kosten $0.519 Responstijd (gem.) 5.31s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
Totaal tests 22 Foute tests 10 Totale kosten $0.756 Responstijd (gem.) 25.9s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
Totaal tests 22 Foute tests 8 Totale kosten $0.437 Responstijd (gem.) 89.2s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)