Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Aantal fouten ↑.

Getoonde modellen

Totaal fouten

1558

Meest getroffen model

Gemini 3 Flash Preview 1

Categorieën

In categorie Domeinspecifiek412 In categorie Anti-AI-trucs293 In categorie Programmeren252 In categorie Puzzeloplossing201 In categorie Algemene kennis168 In categorie Gecombineerd68 In categorie Instructies opvolgen61 In categorie Algemene intelligentie59 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

209/209

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#133	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
Totaal tests 21 Foute tests 7 Totale kosten $0.385 Responstijd (gem.) 9.05s
#135	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
Totaal tests 21 Foute tests 10 Totale kosten $0.048 Responstijd (gem.) 56.6s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Totaal tests 22 Foute tests 4 Totale kosten $0.971 Responstijd (gem.) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Totaal tests 22 Foute tests 4 Totale kosten $1.316 Responstijd (gem.) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Totaal tests 22 Foute tests 4 Totale kosten $1.234 Responstijd (gem.) 11.7s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Totaal tests 22 Foute tests 4 Totale kosten $4.137 Responstijd (gem.) 38.4s
#13	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
Totaal tests 22 Foute tests 6 Totale kosten $0.920 Responstijd (gem.) 17.0s
#16	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Totaal tests 22 Foute tests 7 Totale kosten $1.357 Responstijd (gem.) 25.0s
#23	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Totaal tests 22 Foute tests 6 Totale kosten $0.922 Responstijd (gem.) 12.5s
#27	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
Totaal tests 22 Foute tests 10 Totale kosten $1.694 Responstijd (gem.) 31.5s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Totaal tests 22 Foute tests 7 Totale kosten $1.006 Responstijd (gem.) 64.2s
#32	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
Totaal tests 22 Foute tests 7 Totale kosten $0.391 Responstijd (gem.) 16.2s
#40	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Totaal tests 22 Foute tests 8 Totale kosten $2.057 Responstijd (gem.) 25.9s
#41	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Totaal tests 22 Foute tests 6 Totale kosten $2.077 Responstijd (gem.) 12.7s
#49	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Totaal tests 21 Foute tests 7 Totale kosten $0.323 Responstijd (gem.) 23.0s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)