Orodha ya Mbinu za kupinga AI x Hakufuata maelekezo

Kushindwa kwa kategoria za AI BENCHY

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hakufuata maelekezo katika Mbinu za kupinga AI, ili uone udhaifu haraka. Panga kwa: Muda wa majibu (wastani) ↓.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Ring-2.6-1T 1

Sababu za kushindwa

Jibu lisilo sahihi250 Hakufuata maelekezo30 Muundo wa ziada18 Hitilafu ya API12 Muda umeisha4 Hakuna jibu3

Kategoria

Utatuzi wa mafumbo82 Akili ya jumla72 Mbinu za kupinga AI30 Uandishi wa msimbo16 Ufuataji wa maagizo12 Mwito wa zana6 Mahususi kwa domeni1 Mchanganyiko1

29/29

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#144	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.026 Muda wa majibu (wastani) 43.3s
#127	MiniMax M2.7 medium	Minimax	1	7.9	$0.104	2/4	40.3s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.104 Muda wa majibu (wastani) 40.3s
#164	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.010 Muda wa majibu (wastani) 32.8s
#146	MiniMax M2.5 medium	Minimax	1	7.9	$0.303	2/4	20.8s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.303 Muda wa majibu (wastani) 20.8s
#157	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.054	1/4	15.0s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.054 Muda wa majibu (wastani) 15.0s
#40	MiniMax M3 medium	Minimax	1	5.5	$0.131	1/4	14.9s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.131 Muda wa majibu (wastani) 14.9s
#16	GPT-5 Mini medium	OpenAI	1	7.1	$0.159	2/4	13.9s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.159 Muda wa majibu (wastani) 13.9s
#143	Ling-2.6-flash none	Inclusionai	1	6.8	$0.001	2/4	11.8s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.001 Muda wa majibu (wastani) 11.8s
#35	Kimi K2.6 medium	Moonshot AI	1	7.0	$0.889	2/4	11.6s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.889 Muda wa majibu (wastani) 11.6s
#158	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
Jumla ya majaribio 4 Majaribio yenye makosa 3 Jumla ya gharama $0.003 Muda wa majibu (wastani) 11.1s
#56	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.457 Muda wa majibu (wastani) 10.8s
#78	gpt-oss-120b medium	OpenAI	1	6.7	$0.013	2/4	10.2s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.013 Muda wa majibu (wastani) 10.2s
#20	Step 3.7 Flash medium	Stepfun	1	8.7	$0.376	3/4	9.65s
Jumla ya majaribio 4 Majaribio yenye makosa 1 Jumla ya gharama $0.376 Muda wa majibu (wastani) 9.65s
#148	Qwen3 Coder Next medium	Qwen	1	3.5	$0.008	0/4	8.64s
Jumla ya majaribio 4 Majaribio yenye makosa 4 Jumla ya gharama $0.008 Muda wa majibu (wastani) 8.64s
#22	GPT-5.2 medium	OpenAI	1	6.5	$0.548	2/4	7.81s
Jumla ya majaribio 4 Majaribio yenye makosa 2 Jumla ya gharama $0.548 Muda wa majibu (wastani) 7.81s

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Mbinu za kupinga AI: Hakufuata maelekezo

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa