Orodha ya Uandishi wa msimbo x Hakufuata maelekezo

Kushindwa kwa kategoria za AI BENCHY

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hakufuata maelekezo katika Uandishi wa msimbo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Gemini 3.5 Flash 1

Sababu za kushindwa

Jibu lisilo sahihi230 Hitilafu ya API43 Muda umeisha23 Hakuna jibu18 Hakufuata maelekezo16 Muundo wa ziada12

Kategoria

Utatuzi wa mafumbo82 Akili ya jumla74 Mbinu za kupinga AI31 Uandishi wa msimbo16 Ufuataji wa maagizo15 Mwito wa zana6 Mahususi kwa domeni1 Mchanganyiko1

16/16

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#11	Gemini 3.5 Flash medium	Google	1	7.9	$0.582	2/3	12.6s
Jumla ya majaribio 3 Majaribio yenye makosa 1 Jumla ya gharama $0.582 Muda wa majibu (wastani) 12.6s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $2.053 Muda wa majibu (wastani) 30.1s
#69	Claude Opus 4.8 none	Anthropic	1	5.5	$0.539	1/3	3.29s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.539 Muda wa majibu (wastani) 3.29s
#70	DeepSeek V4 Pro none	DeepSeek	1	5.6	$0.034	1/3	13.4s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.034 Muda wa majibu (wastani) 13.4s
#73	GLM 5.2 none	Z.ai	1	3.7	$0.030	0/3	7.55s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.030 Muda wa majibu (wastani) 7.55s
#84	Gemini 3.5 Flash minimal	Google	1	5.6	$0.108	1/3	2.75s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.108 Muda wa majibu (wastani) 2.75s
#127	Kimi K2.6 none	Moonshot AI	1	5.5	$0.078	1/3	82.6s
Jumla ya majaribio 3 Majaribio yenye makosa 2 Jumla ya gharama $0.078 Muda wa majibu (wastani) 82.6s
#132	Grok 4.1 Fast medium	X AI	1	7.8	$0.069	0/1	23.6s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.069 Muda wa majibu (wastani) 23.6s
#136	MiMo-V2.5-Pro none	Xiaomi	1	4.3	$0.017	0/3	1.41s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.017 Muda wa majibu (wastani) 1.41s
#139	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.9	$0.032	0/3	1.69s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.032 Muda wa majibu (wastani) 1.69s
#145	DeepSeek V3.2 none	DeepSeek	1	3.1	$0.017	0/3	14.5s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.017 Muda wa majibu (wastani) 14.5s
#157	Laguna M.1 medium	Poolside	1	1.5	$0.033	0/1	35.6s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.033 Muda wa majibu (wastani) 35.6s
#159	Cobuddy medium	Baidu	1	3.7	$0.000	0/3	79.2s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.000 Muda wa majibu (wastani) 79.2s
#178	MiMo-V2-Flash none	Xiaomi	1	4.3	$0.025	0/3	2.64s
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.025 Muda wa majibu (wastani) 2.64s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Jumla ya majaribio 3 Majaribio yenye makosa 3 Jumla ya gharama $0.003 Muda wa majibu (wastani) 775ms

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Uandishi wa msimbo: Hakufuata maelekezo

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa