Orodha ya modeli za Ufuataji wa maagizo

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Ufuataji wa maagizo, zipi zinabaki thabiti, na pengo kubwa liko wapi. Panga kwa: Muda wa majibu (wastani) ↓.

Modeli zilizoonyeshwa

Wastani wa Alama ya Ufuataji wa maagizo

8.5

Modeli bora

Kimi K2.5 10.0

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi61 Kwa sababu ya kushindwa Hakufuata maelekezo18 Kwa sababu ya kushindwa Muundo wa ziada3 Kwa sababu ya kushindwa Hakuna jibu2 Kwa sababu ya kushindwa Hitilafu ya API1 Kwa sababu ya kushindwa Muda umeisha1

210/210

Nafasi	Modeli	Kampuni	Alama ya Ufuataji wa maagizo	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#150	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.044	1/2	17.5s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.044 Muda wa majibu (wastani) 17.5s
#95	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	2/2	17.5s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.089 Muda wa majibu (wastani) 17.5s
#80	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	2/2	17.5s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.101 Muda wa majibu (wastani) 17.5s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.267 Muda wa majibu (wastani) 16.1s
#153	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.015 Muda wa majibu (wastani) 16.0s
#128	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.114 Muda wa majibu (wastani) 15.6s
#137	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.000 Muda wa majibu (wastani) 15.4s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	2/2	15.4s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.042 Muda wa majibu (wastani) 15.4s
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.003 Muda wa majibu (wastani) 13.0s
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
Jumla ya majaribio 2 Majaribio yenye makosa 2 Jumla ya gharama $0.163 Muda wa majibu (wastani) 12.8s
#110	Gemma 4 31B medium	Google	10.0	6.3	$0.163	2/2	12.8s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.163 Muda wa majibu (wastani) 12.8s
#68	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $1.036 Muda wa majibu (wastani) 12.5s
#48	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $1.097 Muda wa majibu (wastani) 12.4s
#108	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.103 Muda wa majibu (wastani) 11.8s
#188	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.000 Muda wa majibu (wastani) 11.6s

Orodha ya Ufuataji wa maagizo

Chuja miundo

Modeli bora kwa Alama ya Ufuataji wa maagizo

Alama ya Ufuataji wa maagizo dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)