Orodha ya kushindwa kwa Hakufuata maelekezo

Ona ni modeli gani za AI hukutana na Hakufuata maelekezo mara nyingi zaidi ili utambue hatari za utegemevu kabla ya kuchagua. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

250

Modeli iliyoathirika zaidi

Nemotron 3 Nano Omni 30b A3b Reasoning 2

Kategoria

Katika kategoria Utatuzi wa mafumbo90 Katika kategoria Akili ya jumla78 Katika kategoria Mbinu za kupinga AI33 Katika kategoria Ufuataji wa maagizo23 Katika kategoria Uandishi wa msimbo16 Katika kategoria Mwito wa zana8 Katika kategoria Mahususi kwa domeni1 Katika kategoria Mchanganyiko1

145/145

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
Jumla ya majaribio 22 Majaribio yenye makosa 14 Jumla ya gharama $0.015 Muda wa majibu (wastani) 7.64s
#34	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
Jumla ya majaribio 22 Majaribio yenye makosa 8 Jumla ya gharama $0.604 Muda wa majibu (wastani) 7.65s
#67	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
Jumla ya majaribio 22 Majaribio yenye makosa 10 Jumla ya gharama $0.661 Muda wa majibu (wastani) 8.12s
#12	Gemini 3.5 Flash medium	Google	1	9.1	$0.642	19/22	8.20s
Jumla ya majaribio 22 Majaribio yenye makosa 3 Jumla ya gharama $0.642 Muda wa majibu (wastani) 8.20s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
Jumla ya majaribio 22 Majaribio yenye makosa 14 Jumla ya gharama $0.048 Muda wa majibu (wastani) 8.42s
#170	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
Jumla ya majaribio 22 Majaribio yenye makosa 18 Jumla ya gharama $0.016 Muda wa majibu (wastani) 8.58s
#174	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
Jumla ya majaribio 22 Majaribio yenye makosa 17 Jumla ya gharama $0.025 Muda wa majibu (wastani) 9.12s
#185	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
Jumla ya majaribio 22 Majaribio yenye makosa 16 Jumla ya gharama $0.016 Muda wa majibu (wastani) 9.15s
#101	GLM 5.2 none	Z.ai	1	6.6	$0.124	12/22	9.34s
Jumla ya majaribio 22 Majaribio yenye makosa 10 Jumla ya gharama $0.124 Muda wa majibu (wastani) 9.34s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.1	$0.584	14/22	9.48s
Jumla ya majaribio 22 Majaribio yenye makosa 8 Jumla ya gharama $0.584 Muda wa majibu (wastani) 9.48s
#196	Qwen3 Coder Next medium	Qwen	3	4.7	$0.032	4/22	9.61s
Jumla ya majaribio 22 Majaribio yenye makosa 18 Jumla ya gharama $0.032 Muda wa majibu (wastani) 9.61s
#190	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Jumla ya majaribio 18 Majaribio yenye makosa 10 Jumla ya gharama $5.599 Muda wa majibu (wastani) 9.69s
#137	Grok 4.20 Beta medium	X AI	1	6.0	$0.750	14/18	9.75s
Jumla ya majaribio 18 Majaribio yenye makosa 4 Jumla ya gharama $0.750 Muda wa majibu (wastani) 9.75s
#154	Owl Alpha none	Openrouter	3	5.6	$0.000	7/21	9.88s
Jumla ya majaribio 21 Majaribio yenye makosa 14 Jumla ya gharama $0.000 Muda wa majibu (wastani) 9.88s
#165	KAT-Coder-Air V2.5 low	Kwaipilot	2	5.4	$0.041	7/22	10.1s
Jumla ya majaribio 22 Majaribio yenye makosa 15 Jumla ya gharama $0.041 Muda wa majibu (wastani) 10.1s

Kushindwa kwa Hakufuata maelekezo

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)