Orodha ya Ufuataji wa maagizo x Hakufuata maelekezo

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hakufuata maelekezo katika Ufuataji wa maagizo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Muse Spark 1.1 1

Sababu za kushindwa

Jibu lisilo sahihi61 Hakufuata maelekezo18 Muundo wa ziada3 Hakuna jibu2 Hitilafu ya API1 Muda umeisha1

Kategoria

Utatuzi wa mafumbo90 Akili ya jumla78 Mbinu za kupinga AI33 Ufuataji wa maagizo18 Uandishi wa msimbo16 Mwito wa zana8 Mahususi kwa domeni1 Mchanganyiko1

18/18

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#16	Muse Spark 1.1 medium	Meta	1	6.5	$1.357	1/2	6.31s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $1.357 Muda wa majibu (wastani) 6.31s
#24	Muse Spark 1.1 low	Meta	1	7.3	$0.647	1/2	5.42s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.647 Muda wa majibu (wastani) 5.42s
#27	Muse Spark 1.1 high	Meta	1	6.4	$1.694	1/2	7.81s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $1.694 Muda wa majibu (wastani) 7.81s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.8	$0.200	1/2	8.73s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.200 Muda wa majibu (wastani) 8.73s
#83	GPT-5.6 Sol none	OpenAI	1	8.5	$0.524	1/2	1.33s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.524 Muda wa majibu (wastani) 1.33s
#117	GPT-5.6 Luna low	OpenAI	1	8.5	$0.249	1/2	2.04s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.249 Muda wa majibu (wastani) 2.04s
#130	Step 3.5 Flash medium	Stepfun	1	8.3	$0.108	1/2	4.78s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.108 Muda wa majibu (wastani) 4.78s
#132	GPT-5.6 Terra none	OpenAI	1	8.5	$0.349	1/2	1.15s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.349 Muda wa majibu (wastani) 1.15s
#134	Mimo V2 Omni medium	Xiaomi	1	8.3	$0.683	1/2	4.99s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.683 Muda wa majibu (wastani) 4.99s
#140	Nemotron 3 Super medium	NVIDIA	1	7.3	$0.050	1/2	6.97s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.050 Muda wa majibu (wastani) 6.97s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.163 Muda wa majibu (wastani) 12.8s
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.008 Muda wa majibu (wastani) 822ms
#185	Grok 4.1 Fast medium	X AI	1	6.5	$0.069	1/2	4.63s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.069 Muda wa majibu (wastani) 4.63s
#190	MiniMax M2.5 medium	Minimax	1	7.5	$0.340	1/2	621ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.340 Muda wa majibu (wastani) 621ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.007 Muda wa majibu (wastani) 344ms

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Ufuataji wa maagizo: Hakufuata maelekezo

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa