Orodha ya Akili ya jumla x Hakufuata maelekezo

Ona ni modeli gani za AI zina uwezekano mkubwa wa kupata Hakufuata maelekezo katika Akili ya jumla, ili uone udhaifu haraka.

Modeli zilizoonyeshwa

Jumla ya kushindwa

Modeli iliyoathirika zaidi

Grok 4.5 1

Sababu za kushindwa

Hakufuata maelekezo78 Jibu lisilo sahihi59 Hitilafu ya API12 Muda umeisha4

Kategoria

Utatuzi wa mafumbo90 Akili ya jumla78 Mbinu za kupinga AI33 Ufuataji wa maagizo18 Uandishi wa msimbo16 Mwito wa zana8 Mahususi kwa domeni1 Mchanganyiko1

78/78

Nafasi	Modeli	Kampuni	Idadi ya Hakufuata maelekezo	Alama ya kategoria	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#56	GPT-5.4 Mini medium	OpenAI	1	4.5	$0.756	0/1	3.72s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.756 Muda wa majibu (wastani) 3.72s
#58	Qwen3.5-27B medium	Qwen	1	6.1	$1.627	0/1	101.4s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $1.627 Muda wa majibu (wastani) 101.4s
#63	Claude Sonnet 4.6 none	Anthropic	1	6.1	$0.661	0/1	2.56s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.661 Muda wa majibu (wastani) 2.56s
#71	Qwen3.7 Plus none	Qwen	1	5.3	$0.106	0/1	1.33s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.106 Muda wa majibu (wastani) 1.33s
#73	Grok 4.3 medium	X AI	1	5.4	$0.779	0/1	24.7s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.779 Muda wa majibu (wastani) 24.7s
#75	Grok 4.20 medium	X AI	1	3.9	$0.777	0/1	24.5s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.777 Muda wa majibu (wastani) 24.5s
#77	Kimi K2.5 medium	Moonshot AI	1	6.5	$0.600	0/1	69.7s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.600 Muda wa majibu (wastani) 69.7s
#78	Mercury 2 medium	Inception	1	4.8	$0.093	0/1	821ms
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.093 Muda wa majibu (wastani) 821ms
#80	Seed-2.0-Mini medium	Bytedance Seed	1	5.1	$0.101	0/1	36.7s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.101 Muda wa majibu (wastani) 36.7s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	4.7	$0.467	0/1	2.35s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.467 Muda wa majibu (wastani) 2.35s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	5.5	$0.187	0/1	4.02s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.187 Muda wa majibu (wastani) 4.02s
#90	Qwen3.6 35B A3B medium	Qwen	1	4.4	$0.746	0/1	8.66s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.746 Muda wa majibu (wastani) 8.66s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	0/1	39.5s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.779 Muda wa majibu (wastani) 39.5s
#101	MiMo-V2.5 medium	Xiaomi	1	5.4	$0.082	0/1	5.37s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.082 Muda wa majibu (wastani) 5.37s
#103	Qwen3.5-27B none	Qwen	1	5.0	$0.090	0/1	2.51s
Jumla ya majaribio 1 Majaribio yenye makosa 1 Jumla ya gharama $0.090 Muda wa majibu (wastani) 2.51s

←

1 2 3 4 5 6

→

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa

Akili ya jumla: Hakufuata maelekezo

Chuja miundo

Modeli bora kwa Idadi ya Hakufuata maelekezo

Idadi ya Hakufuata maelekezo dhidi ya Alama

Modeli bora kwa Muda wa majibu (wastani)

Modeli bora kwa Gharama iliyopotezwa inayokadiriwa