Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Correcte tests ↓.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Gemini 3.6 Flash 1

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.068 Responstijd (gem.) 47.9s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Totaal tests 22 Foute tests 13 Totale kosten $0.017 Responstijd (gem.) 6.20s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.019 Responstijd (gem.) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Totaal tests 22 Foute tests 13 Totale kosten $0.046 Responstijd (gem.) 1.75s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.114 Responstijd (gem.) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Totaal tests 22 Foute tests 13 Totale kosten $0.000 Responstijd (gem.) 137.1s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
Totaal tests 22 Foute tests 13 Totale kosten $0.026 Responstijd (gem.) 55.1s
#151	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Totaal tests 21 Foute tests 13 Totale kosten $0.052 Responstijd (gem.) 2.99s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Totaal tests 21 Foute tests 13 Totale kosten $0.000 Responstijd (gem.) 11.9s
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Totaal tests 21 Foute tests 13 Totale kosten $0.021 Responstijd (gem.) 2.44s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Totaal tests 19 Foute tests 12 Totale kosten $0.547 Responstijd (gem.) 28.7s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Totaal tests 22 Foute tests 14 Totale kosten $0.090 Responstijd (gem.) 4.76s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Totaal tests 22 Foute tests 14 Totale kosten $0.548 Responstijd (gem.) 6.04s
#122	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Totaal tests 22 Foute tests 14 Totale kosten $0.066 Responstijd (gem.) 4.40s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Totaal tests 22 Foute tests 14 Totale kosten $0.073 Responstijd (gem.) 25.3s

←

1 9 10 11 15

→

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)