Orodha ya Ufuataji wa maagizo x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Ufuataji wa maagizo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

LongCat 2.0 1

Sababu za kushindwa

Jibu lisilo sahihi61 Hakufuata maelekezo18 Muundo wa ziada3 Hakuna jibu2 Hitilafu ya API1 Muda umeisha1

Kategoria

Mahususi kwa domeni412 Mbinu za kupinga AI293 Uandishi wa msimbo252 Utatuzi wa mafumbo201 Maarifa ya jumla168 Mchanganyiko68 Ufuataji wa maagizo61 Akili ya jumla59 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

61/61

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.2	$0.122	1/2	1.17s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.122 Muda wa majibu (wastani) 1.17s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.3	$0.106	1/2	809ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.106 Muda wa majibu (wastani) 809ms
#136	GPT-5.4 Mini none	OpenAI	1	6.3	$0.095	1/2	728ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.095 Muda wa majibu (wastani) 728ms
#138	Kimi K2.6 none	Moonshot AI	1	6.5	$0.184	1/2	1.64s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.184 Muda wa majibu (wastani) 1.64s
#139	GPT-5.4 none	OpenAI	1	6.5	$0.397	1/2	1.07s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.397 Muda wa majibu (wastani) 1.07s
#142	Qwen3.5-122B-A10B none	Qwen	1	6.3	$0.247	1/2	513ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.247 Muda wa majibu (wastani) 513ms
#145	GLM 5V Turbo none	Z.ai	1	6.5	$0.052	1/2	1.97s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.052 Muda wa majibu (wastani) 1.97s
#146	Owl Alpha medium	Openrouter	1	6.5	$0.000	1/2	10.2s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 10.2s
#147	Mimo V2 PRO none	Xiaomi	1	6.5	$0.045	1/2	2.51s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.045 Muda wa majibu (wastani) 2.51s
#148	Owl Alpha none	Openrouter	1	6.4	$0.000	1/2	2.63s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 2.63s
#152	Qwen3.6 27B none	Qwen	1	6.2	$0.087	1/2	1.92s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.087 Muda wa majibu (wastani) 1.92s
#154	MiMo-V2.5-Pro none	Xiaomi	1	6.4	$0.068	1/2	1.03s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.068 Muda wa majibu (wastani) 1.03s
#155	Kimi K2.5 none	Moonshot AI	1	6.5	$0.127	1/2	2.67s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.127 Muda wa majibu (wastani) 2.67s
#156	Gemma 4 26B A4B none	Google	1	6.3	$0.015	1/2	690ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.015 Muda wa majibu (wastani) 690ms
#157	Mimo V2 Omni none	Xiaomi	1	6.5	$0.021	1/2	4.26s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.021 Muda wa majibu (wastani) 4.26s

←

1 2 3 4 5

→

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Ufuataji wa maagizo: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa