Orodha ya Ufuataji wa maagizo x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Ufuataji wa maagizo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

LongCat 2.0 1

Sababu za kushindwa

Jibu lisilo sahihi61 Hakufuata maelekezo18 Muundo wa ziada3 Hakuna jibu2 Hitilafu ya API1 Muda umeisha1

Kategoria

Mahususi kwa domeni412 Mbinu za kupinga AI293 Uandishi wa msimbo252 Utatuzi wa mafumbo201 Maarifa ya jumla168 Mchanganyiko68 Ufuataji wa maagizo61 Akili ya jumla59 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

61/61

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#159	GPT-5.6 Luna none	OpenAI	1	7.1	$0.142	1/2	1.23s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.142 Muda wa majibu (wastani) 1.23s
#160	Laguna XS 2.1 none	Poolside	1	3.8	$0.008	0/2	364ms
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.008 Muda wa majibu (wastani) 364ms
#161	Qwen3.6 35B A3B none	Qwen	1	6.2	$0.061	1/2	1.86s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.061 Muda wa majibu (wastani) 1.86s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.016 Muda wa majibu (wastani) 5.36s
#164	Inkling none	Thinkingmachines	1	6.3	$0.147	1/2	1.72s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.147 Muda wa majibu (wastani) 1.72s
#165	Mistral Small 4 none	Mistral	1	6.5	$0.022	1/2	380ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.022 Muda wa majibu (wastani) 380ms
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.025 Muda wa majibu (wastani) 7.78s
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.38s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.096 Muda wa majibu (wastani) 1.38s
#168	MiMo-V2.5 none	Xiaomi	1	6.5	$0.025	1/2	751ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.025 Muda wa majibu (wastani) 751ms
#169	Qwen3.5-9B none	Qwen	1	6.5	$0.021	1/2	514ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.021 Muda wa majibu (wastani) 514ms
#170	GLM 5 Turbo none	Z.ai	1	6.5	$0.047	1/2	2.13s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.047 Muda wa majibu (wastani) 2.13s
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.163 Muda wa majibu (wastani) 12.8s
#174	GPT-4o-mini none	OpenAI	1	6.3	$0.010	1/2	1.11s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.010 Muda wa majibu (wastani) 1.11s
#176	GLM 4.7 Flash none	Z.ai	1	6.5	$0.016	1/2	888ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.016 Muda wa majibu (wastani) 888ms

←

1 2 3 4 5

→

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Ufuataji wa maagizo: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa