Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Correcte tests ↓.

Getoonde modellen

Totaal fouten

1558

Meest getroffen model

Gemini 3 Flash Preview 1

Categorieën

In categorie Domeinspecifiek412 In categorie Anti-AI-trucs293 In categorie Programmeren252 In categorie Puzzeloplossing201 In categorie Algemene kennis168 In categorie Gecombineerd68 In categorie Instructies opvolgen61 In categorie Algemene intelligentie59 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

209/209

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Totaal tests 22 Foute tests 1 Totale kosten $0.742 Responstijd (gem.) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Totaal tests 22 Foute tests 2 Totale kosten $1.976 Responstijd (gem.) 15.1s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Totaal tests 22 Foute tests 2 Totale kosten $1.361 Responstijd (gem.) 21.5s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Totaal tests 22 Foute tests 3 Totale kosten $1.253 Responstijd (gem.) 10.1s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
Totaal tests 22 Foute tests 3 Totale kosten $0.642 Responstijd (gem.) 8.20s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Totaal tests 22 Foute tests 3 Totale kosten $0.433 Responstijd (gem.) 5.55s
#94	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
Totaal tests 19 Foute tests 3 Totale kosten $0.505 Responstijd (gem.) 3.02s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Totaal tests 22 Foute tests 4 Totale kosten $0.971 Responstijd (gem.) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Totaal tests 22 Foute tests 4 Totale kosten $1.316 Responstijd (gem.) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Totaal tests 22 Foute tests 4 Totale kosten $1.234 Responstijd (gem.) 11.7s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
Totaal tests 22 Foute tests 4 Totale kosten $1.116 Responstijd (gem.) 40.6s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Totaal tests 22 Foute tests 4 Totale kosten $4.137 Responstijd (gem.) 38.4s
#14	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
Totaal tests 22 Foute tests 4 Totale kosten $1.931 Responstijd (gem.) 12.5s
#15	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
Totaal tests 22 Foute tests 4 Totale kosten $1.477 Responstijd (gem.) 7.61s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
Totaal tests 16 Foute tests 3 Totale kosten $2.310 Responstijd (gem.) 68.1s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)