Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#158	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
Totaal tests 22 Foute tests 15 Totale kosten $0.087 Responstijd (gem.) 10.7s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
Totaal tests 22 Foute tests 16 Totale kosten $0.002 Responstijd (gem.) 10.7s
#173	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Totaal tests 22 Foute tests 17 Totale kosten $0.096 Responstijd (gem.) 10.8s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Totaal tests 22 Foute tests 8 Totale kosten $1.055 Responstijd (gem.) 11.3s
#7	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Totaal tests 22 Foute tests 4 Totale kosten $1.316 Responstijd (gem.) 11.4s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Totaal tests 22 Foute tests 9 Totale kosten $0.647 Responstijd (gem.) 11.5s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
Totaal tests 22 Foute tests 12 Totale kosten $0.096 Responstijd (gem.) 11.6s
#8	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Totaal tests 22 Foute tests 4 Totale kosten $1.234 Responstijd (gem.) 11.7s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Totaal tests 21 Foute tests 13 Totale kosten $0.000 Responstijd (gem.) 11.9s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Totaal tests 22 Foute tests 11 Totale kosten $0.106 Responstijd (gem.) 12.1s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Totaal tests 22 Foute tests 17 Totale kosten $0.067 Responstijd (gem.) 12.2s
#17	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
Totaal tests 22 Foute tests 4 Totale kosten $1.931 Responstijd (gem.) 12.5s
#26	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Totaal tests 22 Foute tests 6 Totale kosten $0.922 Responstijd (gem.) 12.5s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Totaal tests 22 Foute tests 15 Totale kosten $0.106 Responstijd (gem.) 12.7s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Totaal tests 22 Foute tests 6 Totale kosten $2.077 Responstijd (gem.) 12.7s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)