Orodha ya Akili ya jumla x Hakufuata maelekezo

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hakufuata maelekezo katika Akili ya jumla, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Grok 4.5 1

Sababu za kushindwa

Hakufuata maelekezo78 Jibu lisilo sahihi59 Hitilafu ya API12 Muda umeisha4

Kategoria

Utatuzi wa mafumbo90 Akili ya jumla78 Mbinu za kupinga AI33 Ufuataji wa maagizo18 Uandishi wa msimbo16 Mwito wa zana8 Mahususi kwa domeni1 Mchanganyiko1

78/78

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.247 Muda wa majibu (wastani) 1.12s
#143	Gemini 3.1 Flash Lite high	Google	1	5.0	$2.044	0/1	45.7s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $2.044 Muda wa majibu (wastani) 45.7s
#145	GLM 5V Turbo none	Z.ai	1	4.6	$0.052	0/1	2.22s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.052 Muda wa majibu (wastani) 2.22s
#146	Owl Alpha medium	Openrouter	1	4.3	$0.000	0/1	58.6s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 58.6s
#147	Mimo V2 PRO none	Xiaomi	1	4.3	$0.045	0/1	2.44s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.045 Muda wa majibu (wastani) 2.44s
#148	Owl Alpha none	Openrouter	1	4.3	$0.000	0/1	4.61s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 4.61s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.0	$0.048	0/1	9.81s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.048 Muda wa majibu (wastani) 9.81s
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.087 Muda wa majibu (wastani) 1.07s
#156	Gemma 4 26B A4B none	Google	1	4.0	$0.015	0/1	3.54s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.015 Muda wa majibu (wastani) 3.54s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	5.0	$0.041	0/1	10.1s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.041 Muda wa majibu (wastani) 10.1s
#162	Ling-2.6-1T none	Inclusionai	1	5.0	$0.016	0/1	20.3s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.016 Muda wa majibu (wastani) 20.3s
#167	Mistral Small 4 medium	Mistral	1	4.8	$0.096	0/1	2.05s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.096 Muda wa majibu (wastani) 2.05s
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.021 Muda wa majibu (wastani) 552ms
#170	GLM 5 Turbo none	Z.ai	1	4.2	$0.047	0/1	2.18s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.047 Muda wa majibu (wastani) 2.18s
#172	MiniMax M2.7 medium	Minimax	1	3.9	$0.163	0/1	38.7s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.163 Muda wa majibu (wastani) 38.7s

←

1 2 3 4 5 6

→

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Akili ya jumla: Hakufuata maelekezo

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa