Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score ↓.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Gemini 3.6 Flash 1

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Totaal tests 22 Foute tests 9 Totale kosten $0.779 Responstijd (gem.) 47.4s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
Totaal tests 22 Foute tests 9 Totale kosten $0.535 Responstijd (gem.) 46.8s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
Totaal tests 22 Foute tests 10 Totale kosten $0.777 Responstijd (gem.) 29.5s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Totaal tests 22 Foute tests 11 Totale kosten $0.078 Responstijd (gem.) 68.6s
#81	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
Totaal tests 22 Foute tests 12 Totale kosten $0.600 Responstijd (gem.) 99.0s
#82	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
Totaal tests 22 Foute tests 12 Totale kosten $0.093 Responstijd (gem.) 2.72s
#83	Gemini 3.5 Flash none	Google	3	7.0	$1.079	15/22	9.93s
Totaal tests 22 Foute tests 7 Totale kosten $1.079 Responstijd (gem.) 9.93s
#84	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
Totaal tests 22 Foute tests 11 Totale kosten $0.101 Responstijd (gem.) 92.5s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Totaal tests 22 Foute tests 11 Totale kosten $0.467 Responstijd (gem.) 24.0s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
Totaal tests 22 Foute tests 12 Totale kosten $0.096 Responstijd (gem.) 11.6s
#87	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Totaal tests 22 Foute tests 11 Totale kosten $0.524 Responstijd (gem.) 2.16s
#88	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
Totaal tests 22 Foute tests 10 Totale kosten $0.187 Responstijd (gem.) 33.9s
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
Totaal tests 22 Foute tests 10 Totale kosten $0.738 Responstijd (gem.) 44.7s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Totaal tests 22 Foute tests 11 Totale kosten $1.207 Responstijd (gem.) 64.7s
#91	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Totaal tests 22 Foute tests 11 Totale kosten $0.544 Responstijd (gem.) 2.36s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)