Orodha ya Ufuataji wa maagizo x Jibu lisilo sahihi

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Jibu lisilo sahihi katika Ufuataji wa maagizo, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

LongCat 2.0 1

Sababu za kushindwa

Jibu lisilo sahihi61 Hakufuata maelekezo18 Muundo wa ziada3 Hakuna jibu2 Hitilafu ya API1 Muda umeisha1

Kategoria

Mahususi kwa domeni412 Mbinu za kupinga AI293 Uandishi wa msimbo252 Utatuzi wa mafumbo201 Maarifa ya jumla168 Mchanganyiko68 Ufuataji wa maagizo61 Akili ya jumla59 Uchanganuzi na uchimbaji wa data41 Mwito wa zana3

61/61

Nafasi	Modeli	Kampuni	Idadi ya Jibu lisilo sahihi	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#60	LongCat 2.0 medium	Meituan	1	6.5	$0.478	1/2	7.38s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.478 Muda wa majibu (wastani) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.5	$0.661	1/2	1.96s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.661 Muda wa majibu (wastani) 1.96s
#71	Qwen3.7 Plus none	Qwen	1	6.3	$0.106	1/2	929ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.106 Muda wa majibu (wastani) 929ms
#74	GLM 5.1 medium	Z.ai	1	6.4	$0.535	1/2	7.47s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.535 Muda wa majibu (wastani) 7.47s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.3	$0.096	1/2	4.12s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.096 Muda wa majibu (wastani) 4.12s
#87	GPT-5.5 none	OpenAI	1	6.2	$0.544	1/2	1.15s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.544 Muda wa majibu (wastani) 1.15s
#88	Gemini 3.5 Flash minimal	Google	1	6.4	$0.300	1/2	893ms
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.300 Muda wa majibu (wastani) 893ms
#89	Gemini 3 Flash Preview none	Google	1	6.4	$0.085	1/2	1.58s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.085 Muda wa majibu (wastani) 1.58s
#91	LongCat 2.0 low	Meituan	1	6.5	$0.391	1/2	6.39s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.391 Muda wa majibu (wastani) 6.39s
#97	LongCat 2.0 high	Meituan	1	6.5	$0.469	1/2	6.96s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.469 Muda wa majibu (wastani) 6.96s
#103	Qwen3.5-27B none	Qwen	1	6.3	$0.090	1/2	1.03s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.090 Muda wa majibu (wastani) 1.03s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	2.82s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.044 Muda wa majibu (wastani) 2.82s
#115	Gemma 4 31B none	Google	1	6.5	$0.035	1/2	2.84s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.035 Muda wa majibu (wastani) 2.84s
#124	Qwen3.6 Flash none	Qwen	1	6.3	$0.062	1/2	1.10s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.062 Muda wa majibu (wastani) 1.10s
#125	Qwen3.5-Flash none	Qwen	1	6.3	$0.073	1/2	8.81s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.073 Muda wa majibu (wastani) 8.81s

1 2 3 4 5

→

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Ufuataji wa maagizo: Jibu lisilo sahihi

Chuja miundo

Modeli bora kwa Idadi ya Jibu lisilo sahihi

Idadi ya Jibu lisilo sahihi dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa