Orodha ya Maarifa ya jumla x Jibu lisilo sahihi

Kushindwa kwa kategoria za AI BENCHY

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Maarifa ya jumla, ili uone udhaifu haraka. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

133

Modeli iliyoathirika zaidi

Qwen3.5-122B-A10B 1

Sababu za kushindwa

Jibu lisilo sahihi133 Hitilafu ya API13 Hakuna jibu8

Kategoria

Mahususi kwa domeni325 Mbinu za kupinga AI250 Uandishi wa msimbo201 Utatuzi wa mafumbo154 Maarifa ya jumla133 Ufuataji wa maagizo54 Mchanganyiko53 Akili ya jumla36 Uchanganuzi na uchimbaji wa data35 Mwito wa zana2

133/133

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#125	Qwen3.5-122B-A10B none	Qwen	1	3.0	$0.020	0/1	295ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.020 Muda wa majibu (wastani) 295ms
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.003 Muda wa majibu (wastani) 306ms
#129	Mistral Small 4 none	Mistral	1	3.0	$0.007	0/1	397ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.007 Muda wa majibu (wastani) 397ms
#148	Qwen3 Coder Next medium	Qwen	1	3.0	$0.008	0/1	399ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.008 Muda wa majibu (wastani) 399ms
#128	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.031	0/1	414ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.031 Muda wa majibu (wastani) 414ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.012 Muda wa majibu (wastani) 493ms
#151	Mercury 2 none	Inception	1	3.0	$0.011	0/1	548ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.011 Muda wa majibu (wastani) 548ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.005 Muda wa majibu (wastani) 588ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.015 Muda wa majibu (wastani) 599ms
#130	Qwen3 Coder Next none	Qwen	1	3.0	$0.009	0/1	601ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.009 Muda wa majibu (wastani) 601ms
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.015 Muda wa majibu (wastani) 649ms
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.004 Muda wa majibu (wastani) 692ms
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.013 Muda wa majibu (wastani) 724ms
#161	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/1	731ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.008 Muda wa majibu (wastani) 731ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.013 Muda wa majibu (wastani) 733ms

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Maarifa ya jumla: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa