Foutenranglijst voor Time-out

AI BENCHY Fouten

Zie welke AI-modellen het vaakst tegen Time-out aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Aantal fouten ↑.

Getoonde modellen

Totaal fouten

Meest getroffen model

Categorieën

In categorie Domeinspecifiek34 In categorie Programmeren23 In categorie Puzzeloplossing5 In categorie Algemene intelligentie4 In categorie Anti-AI-trucs4 In categorie Gecombineerd2 In categorie Gegevensparsering en extractie1

Rang	Model	Bedrijf	Time-out-aantal	Score	Correcte tests	Responstijd (gem.)
#11	Claude Opus 4.7 medium	Anthropic	1	8.7	17/21	4.73s
#17	GLM 5 medium	Z.ai	1	8.3	15/21	33.5s
#18	Qwen3.7 Plus medium	Qwen	1	8.2	15/21	38.9s
#23	GLM 5 Turbo medium	Z.ai	1	8.0	14/21	23.0s
#30	Qwen3.5-27B medium	Qwen	1	7.8	13/21	68.4s
#42	GPT-5.2 medium	OpenAI	1	7.5	13/21	16.9s
#51	Mimo V2 PRO medium	Xiaomi	1	7.4	12/21	22.2s
#52	Claude Sonnet 4.6 medium	Anthropic	1	7.4	13/21	17.1s
#54	GPT-5 Mini medium	OpenAI	1	7.3	12/21	23.6s
#62	Step 3.5 Flash medium	Stepfun	1	7.2	11/20	72.5s
#64	MiMo-V2-Flash medium	Xiaomi	1	7.2	12/21	20.1s
#86	Grok 4.1 Fast medium	X AI	1	6.5	9/19	23.8s
#94	GPT-5 Nano medium	OpenAI	1	6.3	9/21	42.5s
#102	Gemma 4 26B A4B none	Google	1	6.0	8/21	5.91s
#105	Nemotron 3 Super medium	NVIDIA	1	5.8	8/21	32.0s

Time-out-fouten