Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Correcte tests ↓.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Gemini 3.6 Flash 1

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Totaal tests 22 Foute tests 8 Totale kosten $0.515 Responstijd (gem.) 26.4s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Totaal tests 22 Foute tests 8 Totale kosten $0.604 Responstijd (gem.) 7.65s
#35	GLM 5.2 high	Z.ai	3	8.0	$0.817	14/22	62.7s
Totaal tests 22 Foute tests 8 Totale kosten $0.817 Responstijd (gem.) 62.7s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Totaal tests 22 Foute tests 8 Totale kosten $1.055 Responstijd (gem.) 11.3s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Totaal tests 22 Foute tests 8 Totale kosten $0.234 Responstijd (gem.) 48.5s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Totaal tests 22 Foute tests 8 Totale kosten $0.676 Responstijd (gem.) 7.11s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Totaal tests 22 Foute tests 8 Totale kosten $2.057 Responstijd (gem.) 25.9s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Totaal tests 22 Foute tests 8 Totale kosten $1.097 Responstijd (gem.) 52.1s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Totaal tests 22 Foute tests 8 Totale kosten $0.352 Responstijd (gem.) 7.28s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
Totaal tests 22 Foute tests 8 Totale kosten $0.437 Responstijd (gem.) 89.2s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Totaal tests 22 Foute tests 8 Totale kosten $1.046 Responstijd (gem.) 64.2s
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
Totaal tests 22 Foute tests 8 Totale kosten $0.300 Responstijd (gem.) 2.65s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
Totaal tests 22 Foute tests 8 Totale kosten $0.089 Responstijd (gem.) 103.8s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
Totaal tests 22 Foute tests 8 Totale kosten $0.107 Responstijd (gem.) 75.4s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Totaal tests 22 Foute tests 9 Totale kosten $0.647 Responstijd (gem.) 11.5s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)