Orodha ya Ufuataji wa maagizo x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Ufuataji wa maagizo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

LongCat 2.0 1

Sababu za kushindwa

Jibu lisilo sahihi61 Hakufuata maelekezo18 Muundo wa ziada3 Hakuna jibu2 Hitilafu ya API1 Muda umeisha1

Kategoria

Mahususi kwa domeni412 Mbinu za kupinga AI293 Uandishi wa msimbo252 Utatuzi wa mafumbo201 Maarifa ya jumla168 Mchanganyiko68 Ufuataji wa maagizo61 Akili ya jumla59 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

61/61

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#177	Nemotron 3 Super none	NVIDIA	1	6.3	$0.008	1/2	804ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.008 Muda wa majibu (wastani) 804ms
#180	GPT-5.4 Nano none	OpenAI	1	6.3	$0.041	1/2	784ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.041 Muda wa majibu (wastani) 784ms
#183	Trinity Large Preview none	Arcee AI	1	3.5	$0.008	0/2	822ms
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.008 Muda wa majibu (wastani) 822ms
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	1/2	7.49s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.032 Muda wa majibu (wastani) 7.49s
#189	Mercury 2 none	Inception	1	6.5	$0.030	1/2	551ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.030 Muda wa majibu (wastani) 551ms
#191	Grok 4.20 Beta none	X AI	1	6.3	$0.087	1/2	649ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.087 Muda wa majibu (wastani) 649ms
#192	Laguna M.1 none	Poolside	1	6.3	$0.009	1/2	683ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.009 Muda wa majibu (wastani) 683ms
#194	GLM 4.7 Flash medium	Z.ai	1	6.2	$0.166	1/2	2.97s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.166 Muda wa majibu (wastani) 2.97s
#196	Hunter Alpha none	OpenRouter	1	6.4	$0.000	1/2	2.82s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 2.82s
#197	Grok 4.20 none	X AI	1	6.3	$0.057	1/2	445ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.057 Muda wa majibu (wastani) 445ms
#200	MiMo-V2-Flash none	Xiaomi	1	6.5	$0.025	1/2	857ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.025 Muda wa majibu (wastani) 857ms
#201	Granite 4.1 8B none	IBM Granite	1	3.6	$0.007	0/2	344ms
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.007 Muda wa majibu (wastani) 344ms
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.008 Muda wa majibu (wastani) 685ms
#205	Laguna Xs.2 none	Poolside	1	6.5	$0.004	1/2	439ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.004 Muda wa majibu (wastani) 439ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.000 Muda wa majibu (wastani) 541ms

←

1 2 3 4 5

→

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Ufuataji wa maagizo: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa