Orodha ya Uandishi wa msimbo x Hakufuata maelekezo

Kushindwa kwa kategoria za AI BENCHY

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hakufuata maelekezo katika Uandishi wa msimbo, ili uone udhaifu haraka. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Granite 4.1 8B 1

Sababu za kushindwa

Jibu lisilo sahihi120 Hakuna jibu18 Hakufuata maelekezo16 Muda umeisha12 Muundo wa ziada7 Hitilafu ya API6

Kategoria

Utatuzi wa mafumbo84 Akili ya jumla74 Mbinu za kupinga AI29 Uandishi wa msimbo16 Ufuataji wa maagizo14 Mwito wa zana6 Mahususi kwa domeni1 Mchanganyiko1

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama ya kategoria	Majaribio sahihi	Muda wa majibu (wastani)
#153	Granite 4.1 8B none	IBM Granite	1	5.2	0/2	706ms
#115	MiMo-V2.5-Pro none	Xiaomi	1	5.0	0/2	1.80s
#149	MiMo-V2-Flash none	Xiaomi	1	4.9	0/2	2.04s
#101	Qwen3.5 Plus 2026-04-20 none	Qwen	1	4.4	0/2	2.08s
#24	Gemini 3.5 Flash minimal	Google	1	7.0	1/2	3.39s
#6	Gemini 3.5 Flash medium	Google	1	6.8	1/2	9.91s
#100	Owl Alpha medium	Openrouter	1	6.6	1/2	19.1s
#114	DeepSeek V3.2 none	DeepSeek	1	3.1	0/2	20.9s
#87	Grok 4.1 Fast medium	X AI	1	2.3	0/1	23.6s
#63	Claude Opus 4.6 medium	Anthropic	1	7.2	1/2	29.4s
#74	Laguna M.1 medium	Poolside	1	4.3	0/1	35.6s
#80	DeepSeek V4 Pro high	DeepSeek	1	2.8	0/2	51.8s
#96	Nemotron 3 Super medium	NVIDIA	1	3.1	0/2	62.4s
#105	Cobuddy medium	Baidu	1	4.1	0/2	79.2s
#110	Kimi K2.6 none	Moonshot AI	1	6.8	1/2	122.8s

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Uandishi wa msimbo: Hakufuata maelekezo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa