Orodha ya Akili ya jumla x Hakufuata maelekezo

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hakufuata maelekezo katika Akili ya jumla, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Grok 4.5 1

Sababu za kushindwa

Hakufuata maelekezo78 Jibu lisilo sahihi59 Hitilafu ya API12 Muda umeisha4

Kategoria

Utatuzi wa mafumbo90 Akili ya jumla78 Mbinu za kupinga AI33 Ufuataji wa maagizo18 Uandishi wa msimbo16 Mwito wa zana8 Mahususi kwa domeni1 Mchanganyiko1

78/78

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.041 Muda wa majibu (wastani) 1.31s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	5.8	$5.599	0/1	6.40s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $5.599 Muda wa majibu (wastani) 6.40s
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.008 Muda wa majibu (wastani) 873ms
#184	Hunter Alpha medium	OpenRouter	1	7.0	$0.000	0/1	6.44s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 6.44s
#185	Grok 4.1 Fast medium	X AI	1	4.2	$0.069	0/1	16.2s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.069 Muda wa majibu (wastani) 16.2s
#187	Qwen3 Coder Next medium	Qwen	1	6.3	$0.032	0/1	1.39s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.032 Muda wa majibu (wastani) 1.39s
#188	Cobuddy medium	Baidu	1	4.2	$0.000	0/1	23.2s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 23.2s
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.030 Muda wa majibu (wastani) 628ms
#190	MiniMax M2.5 medium	Minimax	1	3.8	$0.340	0/1	6.63s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.340 Muda wa majibu (wastani) 6.63s
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.087 Muda wa majibu (wastani) 541ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 854ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 920ms
#196	Hunter Alpha none	OpenRouter	1	6.1	$0.000	0/1	2.71s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 2.71s
#199	Hy3 preview none	Tencent	1	4.1	$0.003	0/1	16.1s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.003 Muda wa majibu (wastani) 16.1s
#200	MiMo-V2-Flash none	Xiaomi	1	4.6	$0.025	0/1	1.67s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.025 Muda wa majibu (wastani) 1.67s

←

1 2 3 4 5 6

→

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Akili ya jumla: Hakufuata maelekezo

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa