Orodha ya Maarifa ya jumla x Jibu lisilo sahihi

Kushindwa kwa kategoria za AI BENCHY

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Maarifa ya jumla, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

133

Modeli iliyoathirika zaidi

Qwen3.7 Max 1

Sababu za kushindwa

Jibu lisilo sahihi133 Hitilafu ya API13 Hakuna jibu8

Kategoria

Mahususi kwa domeni325 Mbinu za kupinga AI250 Uandishi wa msimbo201 Utatuzi wa mafumbo154 Maarifa ya jumla133 Ufuataji wa maagizo54 Mchanganyiko53 Akili ya jumla36 Uchanganuzi na uchimbaji wa data35 Mwito wa zana2

133/133

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 2.50s
#111	Kimi K2.6 none	Moonshot AI	1	3.0	$0.079	0/1	1.36s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.079 Muda wa majibu (wastani) 1.36s
#112	GPT-5.4 none	OpenAI	1	3.0	$0.122	0/1	990ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.122 Muda wa majibu (wastani) 990ms
#114	Mimo V2 Omni none	Xiaomi	1	3.0	$0.021	0/1	1.30s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.021 Muda wa majibu (wastani) 1.30s
#115	Grok 4.1 Fast medium	X AI	1	3.0	$0.069	0/1	25.5s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.069 Muda wa majibu (wastani) 25.5s
#116	GLM 5.1 none	Z.ai	1	3.0	$0.058	0/1	2.34s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.058 Muda wa majibu (wastani) 2.34s
#117	DeepSeek V4 Flash none	DeepSeek	1	3.0	$0.007	0/1	3.07s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.007 Muda wa majibu (wastani) 3.07s
#118	Kimi K2.5 none	Moonshot AI	1	3.0	$0.027	0/1	3.90s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.027 Muda wa majibu (wastani) 3.90s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.0	$0.017	0/1	1.89s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.017 Muda wa majibu (wastani) 1.89s
#120	Qwen3.6 27B none	Qwen	1	3.0	$0.028	0/1	4.03s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.028 Muda wa majibu (wastani) 4.03s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.004 Muda wa majibu (wastani) 778ms
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.0	$0.032	0/1	33.3s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.032 Muda wa majibu (wastani) 33.3s
#123	GLM 5 Turbo none	Z.ai	1	3.0	$0.047	0/1	2.37s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.047 Muda wa majibu (wastani) 2.37s
#124	GPT-5.4 Mini none	OpenAI	1	3.0	$0.038	0/1	1.33s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.038 Muda wa majibu (wastani) 1.33s
#125	Qwen3.5-122B-A10B none	Qwen	1	3.0	$0.020	0/1	295ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.020 Muda wa majibu (wastani) 295ms

←

1 6 7 8 9

→

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Maarifa ya jumla: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa