Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↓.

Getoonde modellen

Totaal fouten

1558

Meest getroffen model

Gemini 3 Flash Preview 1

Categorieën

In categorie Domeinspecifiek412 In categorie Anti-AI-trucs293 In categorie Programmeren252 In categorie Puzzeloplossing201 In categorie Algemene kennis168 In categorie Gecombineerd68 In categorie Instructies opvolgen61 In categorie Algemene intelligentie59 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

209/209

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Totaal tests 22 Foute tests 8 Totale kosten $0.970 Responstijd (gem.) 62.7s
#32	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
Totaal tests 22 Foute tests 7 Totale kosten $0.391 Responstijd (gem.) 16.2s
#34	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Totaal tests 22 Foute tests 8 Totale kosten $1.055 Responstijd (gem.) 11.3s
#35	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Totaal tests 22 Foute tests 8 Totale kosten $0.234 Responstijd (gem.) 48.5s
#36	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Totaal tests 22 Foute tests 7 Totale kosten $0.267 Responstijd (gem.) 51.5s
#37	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
Totaal tests 22 Foute tests 7 Totale kosten $0.405 Responstijd (gem.) 43.1s
#38	GLM 5.2 medium	Z.ai	3	7.8	$0.222	15/21	23.3s
Totaal tests 21 Foute tests 6 Totale kosten $0.222 Responstijd (gem.) 23.3s
#39	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Totaal tests 22 Foute tests 8 Totale kosten $0.676 Responstijd (gem.) 7.11s
#40	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Totaal tests 22 Foute tests 8 Totale kosten $2.057 Responstijd (gem.) 25.9s
#41	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Totaal tests 22 Foute tests 6 Totale kosten $2.077 Responstijd (gem.) 12.7s
#42	GLM 5 medium	Z.ai	3	7.7	$0.307	15/21	33.5s
Totaal tests 21 Foute tests 6 Totale kosten $0.307 Responstijd (gem.) 33.5s
#43	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Totaal tests 22 Foute tests 9 Totale kosten $3.059 Responstijd (gem.) 34.3s
#44	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Totaal tests 22 Foute tests 7 Totale kosten $1.017 Responstijd (gem.) 18.7s
#45	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.042	13/22	49.7s
Totaal tests 22 Foute tests 9 Totale kosten $0.042 Responstijd (gem.) 49.7s
#46	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Totaal tests 22 Foute tests 12 Totale kosten $0.200 Responstijd (gem.) 79.1s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)