Orodha ya modeli za Ufuataji wa maagizo

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Ufuataji wa maagizo, zipi zinabaki thabiti, na pengo kubwa liko wapi. Panga kwa: Muda wa majibu (wastani) ↑.

Modeli zilizoonyeshwa

Wastani wa Alama ya Ufuataji wa maagizo

8.5

Modeli bora

Granite 4.1 8B 3.6

Sababu za kushindwa

Kwa sababu ya kushindwa Jibu lisilo sahihi61 Kwa sababu ya kushindwa Hakufuata maelekezo18 Kwa sababu ya kushindwa Muundo wa ziada3 Kwa sababu ya kushindwa Hakuna jibu2 Kwa sababu ya kushindwa Hitilafu ya API1 Kwa sababu ya kushindwa Muda umeisha1

210/210

Nafasi	Modeli	Kampuni	Alama ya Ufuataji wa maagizo	Alama	Jumla ya gharama	Majaribio sahihi	Muda wa majibu (wastani)
#154	MiMo-V2.5-Pro none	Xiaomi	6.4	5.5	$0.068	1/2	1.03s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.068 Muda wa majibu (wastani) 1.03s
#103	Qwen3.5-27B none	Qwen	6.3	6.5	$0.090	1/2	1.03s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.090 Muda wa majibu (wastani) 1.03s
#193	Elephant Alpha none	Openrouter	9.8	4.3	$0.000	2/2	1.03s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.000 Muda wa majibu (wastani) 1.03s
#116	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	2/2	1.06s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.066 Muda wa majibu (wastani) 1.06s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	2/2	1.07s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.093 Muda wa majibu (wastani) 1.07s
#139	GPT-5.4 none	OpenAI	6.5	5.8	$0.397	1/2	1.07s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.397 Muda wa majibu (wastani) 1.07s
#124	Qwen3.6 Flash none	Qwen	6.3	6.1	$0.062	1/2	1.10s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.062 Muda wa majibu (wastani) 1.10s
#174	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.010 Muda wa majibu (wastani) 1.11s
#106	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	2/2	1.13s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $0.052 Muda wa majibu (wastani) 1.13s
#132	GPT-5.6 Terra none	OpenAI	8.5	6.0	$0.349	1/2	1.15s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.349 Muda wa majibu (wastani) 1.15s
#87	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.544 Muda wa majibu (wastani) 1.15s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.122 Muda wa majibu (wastani) 1.17s
#159	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.142 Muda wa majibu (wastani) 1.23s
#83	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
Jumla ya majaribio 2 Majaribio yenye makosa 1 Jumla ya gharama $0.524 Muda wa majibu (wastani) 1.33s
#66	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
Jumla ya majaribio 2 Majaribio yenye makosa 0 Jumla ya gharama $1.166 Muda wa majibu (wastani) 1.37s

Orodha ya Ufuataji wa maagizo

Chuja miundo

Modeli bora kwa Alama ya Ufuataji wa maagizo

Alama ya Ufuataji wa maagizo dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)