Kushindwa kwa kategoria za AI BENCHY

Akili ya jumla

Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Akili ya jumla, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Sababu zinazohusiana za kushindwa

Hakufuata maelekezo32 Jibu lisilo sahihi6 Muda umeisha3

Kategoria zinazohusiana

Mahususi kwa domeni98 Utatuzi wa mafumbo55 Mbinu za kupinga AI53 Ufuataji wa maagizo26 Mchanganyiko21 Uchanganuzi na uchimbaji wa data14 Akili ya jumla6 Mwito wa zana2

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Majaribio sahihi	Muda wa majibu (wastani)
#29	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.0	0/1	2.26s
#38	Gemini 2.5 Flash none	Google	1	5.0	0/1	615ms
#44	GPT-5.4 none	OpenAI	1	3.0	0/1	1.78s
#47	GPT-4o-mini none	OpenAI	1	3.0	0/1	909ms
#49	GLM 4.7 Flash none	Z.ai	1	3.0	0/1	1.59s
#52	GLM 4.7 Flash medium	Z.ai	1	10.0	0/1	18.1s

Modeli bora kwa Idadi ya Jibu lisilo sahihi