Orodha ya Akili ya jumla x Hakufuata maelekezo

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hakufuata maelekezo katika Akili ya jumla, ili uone udhaifu haraka. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

LFM2-24B-A2B 1

Sababu za kushindwa

Hakufuata maelekezo78 Jibu lisilo sahihi59 Hitilafu ya API12 Muda umeisha4

Kategoria

Utatuzi wa mafumbo90 Akili ya jumla78 Mbinu za kupinga AI33 Ufuataji wa maagizo18 Uandishi wa msimbo16 Mwito wa zana8 Mahususi kwa domeni1 Mchanganyiko1

78/78

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#210	LFM2-24B-A2B none	Liquid	1	4.0	$0.001	0/1	395ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.001 Muda wa majibu (wastani) 395ms
#191	Grok 4.20 Beta none	X AI	1	5.0	$0.087	0/1	541ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.087 Muda wa majibu (wastani) 541ms
#169	Qwen3.5-9B none	Qwen	1	4.4	$0.021	0/1	552ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.021 Muda wa majibu (wastani) 552ms
#189	Mercury 2 none	Inception	1	4.8	$0.030	0/1	628ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.030 Muda wa majibu (wastani) 628ms
#106	Gemini 3.1 Flash Lite Preview none	Google	1	4.0	$0.052	0/1	741ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.052 Muda wa majibu (wastani) 741ms
#120	Gemini 3.1 Flash Lite minimal	Google	1	4.0	$0.047	0/1	791ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.047 Muda wa majibu (wastani) 791ms
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.093 Muda wa majibu (wastani) 821ms
#193	Elephant Alpha none	Openrouter	1	4.0	$0.000	0/1	854ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 854ms
#183	Trinity Large Preview none	Arcee AI	1	4.5	$0.008	0/1	873ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.008 Muda wa majibu (wastani) 873ms
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	0/1	920ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.000 Muda wa majibu (wastani) 920ms
#152	Qwen3.6 27B none	Qwen	1	5.2	$0.087	0/1	1.07s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.087 Muda wa majibu (wastani) 1.07s
#203	Grok 4.1 Fast none	X AI	1	4.4	$0.008	0/1	1.08s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.008 Muda wa majibu (wastani) 1.08s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.0	$0.247	0/1	1.12s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.247 Muda wa majibu (wastani) 1.12s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.5	$0.106	0/1	1.19s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.106 Muda wa majibu (wastani) 1.19s
#180	GPT-5.4 Nano none	OpenAI	1	3.8	$0.041	0/1	1.31s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.041 Muda wa majibu (wastani) 1.31s

1 2 3 4 5 6

→

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Akili ya jumla: Hakufuata maelekezo

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa