Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Aantal fouten ↑.

Getoonde modellen

Totaal fouten

1558

Meest getroffen model

Gemini 3 Flash Preview 1

Categorieën

In categorie Domeinspecifiek412 In categorie Anti-AI-trucs293 In categorie Programmeren252 In categorie Puzzeloplossing201 In categorie Algemene kennis168 In categorie Gecombineerd68 In categorie Instructies opvolgen61 In categorie Algemene intelligentie59 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

209/209

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Totaal tests 22 Foute tests 1 Totale kosten $0.742 Responstijd (gem.) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Totaal tests 22 Foute tests 2 Totale kosten $1.976 Responstijd (gem.) 15.1s
#209	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Totaal tests 12 Foute tests 6 Totale kosten $0.020 Responstijd (gem.) 39.0s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Totaal tests 22 Foute tests 2 Totale kosten $1.361 Responstijd (gem.) 21.5s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
Totaal tests 22 Foute tests 3 Totale kosten $0.642 Responstijd (gem.) 8.20s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Totaal tests 22 Foute tests 3 Totale kosten $0.433 Responstijd (gem.) 5.55s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Totaal tests 22 Foute tests 5 Totale kosten $1.707 Responstijd (gem.) 76.5s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Totaal tests 22 Foute tests 5 Totale kosten $3.478 Responstijd (gem.) 17.2s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
Totaal tests 22 Foute tests 8 Totale kosten $0.163 Responstijd (gem.) 75.4s
#119	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Totaal tests 22 Foute tests 11 Totale kosten $0.837 Responstijd (gem.) 112.5s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
Totaal tests 16 Foute tests 3 Totale kosten $2.310 Responstijd (gem.) 68.1s
#175	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
Totaal tests 19 Foute tests 10 Totale kosten $0.000 Responstijd (gem.) 15.2s
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Totaal tests 22 Foute tests 19 Totale kosten $0.036 Responstijd (gem.) 82.2s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Totaal tests 22 Foute tests 3 Totale kosten $1.253 Responstijd (gem.) 10.1s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
Totaal tests 22 Foute tests 4 Totale kosten $1.116 Responstijd (gem.) 40.6s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)