Orodha ya Maarifa ya jumla x Jibu lisilo sahihi

Kushindwa kwa kategoria za AI BENCHY

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Maarifa ya jumla, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

133

Modeli iliyoathirika zaidi

Qwen3.7 Max 1

Sababu za kushindwa

Jibu lisilo sahihi133 Hitilafu ya API13 Hakuna jibu8

Kategoria

Mahususi kwa domeni325 Mbinu za kupinga AI250 Uandishi wa msimbo201 Utatuzi wa mafumbo154 Maarifa ya jumla133 Ufuataji wa maagizo54 Mchanganyiko53 Akili ya jumla36 Uchanganuzi na uchimbaji wa data35 Mwito wa zana2

133/133

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#126	DeepSeek V3.2 none	DeepSeek	1	3.0	$0.017	0/1	17.2s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.017 Muda wa majibu (wastani) 17.2s
#127	MiniMax M2.7 medium	Minimax	1	3.0	$0.104	0/1	22.8s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.104 Muda wa majibu (wastani) 22.8s
#128	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.031	0/1	414ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.031 Muda wa majibu (wastani) 414ms
#129	Mistral Small 4 none	Mistral	1	3.0	$0.007	0/1	397ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.007 Muda wa majibu (wastani) 397ms
#130	Qwen3 Coder Next none	Qwen	1	3.0	$0.009	0/1	601ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.009 Muda wa majibu (wastani) 601ms
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 37.4s
#133	Mistral Small 4 medium	Mistral	1	3.0	$0.068	0/1	5.92s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.068 Muda wa majibu (wastani) 5.92s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.007 Muda wa majibu (wastani) 3.89s
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.006 Muda wa majibu (wastani) 2.32s
#137	Trinity Large Preview none	Arcee AI	1	3.0	$0.008	0/1	777ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.008 Muda wa majibu (wastani) 777ms
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.006 Muda wa majibu (wastani) 794ms
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 37.0s
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.004 Muda wa majibu (wastani) 692ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.007 Muda wa majibu (wastani) 8.94s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.001 Muda wa majibu (wastani) 1.06s

←

1 7 8 9

→

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Maarifa ya jumla: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa