Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↓.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Gemini 3.6 Flash 1

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#137	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
Totaal tests 18 Foute tests 4 Totale kosten $0.750 Responstijd (gem.) 9.75s
#138	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Totaal tests 22 Foute tests 14 Totale kosten $0.349 Responstijd (gem.) 1.65s
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
Totaal tests 21 Foute tests 7 Totale kosten $0.385 Responstijd (gem.) 9.05s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
Totaal tests 21 Foute tests 11 Totale kosten $0.683 Responstijd (gem.) 41.2s
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
Totaal tests 21 Foute tests 10 Totale kosten $0.048 Responstijd (gem.) 56.6s
#142	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Totaal tests 22 Foute tests 16 Totale kosten $0.095 Responstijd (gem.) 1.53s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Totaal tests 22 Foute tests 13 Totale kosten $0.000 Responstijd (gem.) 137.1s
#144	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Totaal tests 22 Foute tests 15 Totale kosten $0.184 Responstijd (gem.) 19.6s
#145	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Totaal tests 22 Foute tests 15 Totale kosten $0.397 Responstijd (gem.) 2.07s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
Totaal tests 22 Foute tests 14 Totale kosten $0.055 Responstijd (gem.) 52.0s
#147	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Totaal tests 21 Foute tests 12 Totale kosten $0.041 Responstijd (gem.) 4.03s
#148	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
Totaal tests 22 Foute tests 16 Totale kosten $0.247 Responstijd (gem.) 12.9s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
Totaal tests 18 Foute tests 8 Totale kosten $2.044 Responstijd (gem.) 62.0s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
Totaal tests 22 Foute tests 15 Totale kosten $0.077 Responstijd (gem.) 15.9s
#151	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Totaal tests 21 Foute tests 13 Totale kosten $0.052 Responstijd (gem.) 2.99s

←

1 9 10 11 15

→

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)