Orodha ya kushindwa kwa Hakufuata maelekezo

Ona ni modeli gani za AI hukutana na Hakufuata maelekezo mara nyingi zaidi ili utambue hatari za utegemevu kabla ya kuchagua. Panga kwa: Idadi ya kushindwa ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

245

Modeli iliyoathirika zaidi

Gemini 3.5 Flash 1

Kategoria

Katika kategoria Utatuzi wa mafumbo90 Katika kategoria Akili ya jumla78 Katika kategoria Mbinu za kupinga AI33 Katika kategoria Ufuataji wa maagizo18 Katika kategoria Uandishi wa msimbo16 Katika kategoria Mwito wa zana8 Katika kategoria Mahususi kwa domeni1 Katika kategoria Mchanganyiko1

140/140

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Jumla ya majaribio 22 Majaribio yenye makosa 9 Jumla ya gharama $0.117 Muda wa majibu (wastani) 4.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
Jumla ya majaribio 22 Majaribio yenye makosa 9 Jumla ya gharama $1.166 Muda wa majibu (wastani) 4.91s
#71	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
Jumla ya majaribio 22 Majaribio yenye makosa 11 Jumla ya gharama $0.106 Muda wa majibu (wastani) 12.1s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
Jumla ya majaribio 22 Majaribio yenye makosa 11 Jumla ya gharama $0.078 Muda wa majibu (wastani) 68.6s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	7.0	$0.101	11/22	92.5s
Jumla ya majaribio 22 Majaribio yenye makosa 11 Jumla ya gharama $0.101 Muda wa majibu (wastani) 92.5s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
Jumla ya majaribio 22 Majaribio yenye makosa 11 Jumla ya gharama $0.467 Muda wa majibu (wastani) 24.0s
#83	GPT-5.6 Sol none	OpenAI	1	6.9	$0.524	11/22	2.16s
Jumla ya majaribio 22 Majaribio yenye makosa 11 Jumla ya gharama $0.524 Muda wa majibu (wastani) 2.16s
#85	Qwen3.6 Flash medium	Qwen	1	6.9	$0.738	12/22	44.7s
Jumla ya majaribio 22 Majaribio yenye makosa 10 Jumla ya gharama $0.738 Muda wa majibu (wastani) 44.7s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
Jumla ya majaribio 22 Majaribio yenye makosa 8 Jumla ya gharama $0.300 Muda wa majibu (wastani) 2.65s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
Jumla ya majaribio 22 Majaribio yenye makosa 9 Jumla ya gharama $0.746 Muda wa majibu (wastani) 58.1s
#91	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
Jumla ya majaribio 22 Majaribio yenye makosa 12 Jumla ya gharama $0.391 Muda wa majibu (wastani) 100.3s
#93	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
Jumla ya majaribio 21 Majaribio yenye makosa 10 Jumla ya gharama $0.457 Muda wa majibu (wastani) 23.1s
#96	GLM 5.2 none	Z.ai	1	6.6	$0.151	12/22	9.34s
Jumla ya majaribio 22 Majaribio yenye makosa 10 Jumla ya gharama $0.151 Muda wa majibu (wastani) 9.34s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
Jumla ya majaribio 22 Majaribio yenye makosa 12 Jumla ya gharama $0.779 Muda wa majibu (wastani) 106.3s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
Jumla ya majaribio 21 Majaribio yenye makosa 7 Jumla ya gharama $0.018 Muda wa majibu (wastani) 16.3s

Kushindwa kwa Hakufuata maelekezo

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)