Orodha ya modeli za Ufuataji wa maagizo

Kategoria ya AI BENCHY

Ona ni modeli gani za AI zinafanya vizuri zaidi katika Ufuataji wa maagizo, zipi zinabaki thabiti, na pengo kubwa liko wapi.

Modeli zilizoonyeshwa

Wastani wa Alama ya Ufuataji wa maagizo

8.1

Modeli bora

Gemini 3 Flash Preview 10.0

Sababu zinazohusiana za kushindwa

Jibu lisilo sahihi26 Hakufuata maelekezo9

Nafasi	Modeli	Kampuni	Alama ya Ufuataji wa maagizo	Wastani wa alama	Majaribio sahihi	Muda wa majibu (wastani)
#1	Gemini 3 Flash Preview medium	Google	10.0	10.0	2/2	6.10s
#2	Gemini 3.1 Pro Preview medium	Google	10.0	9.4	2/2	9.56s
#3	GPT-5.3-Codex medium	OpenAI	10.0	8.4	2/2	3.04s
#4	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	8.3	2/2	31.9s
#7	Qwen3.5-27B medium	Qwen	10.0	8.2	2/2	19.7s
#9	GPT-5.4 medium	OpenAI	10.0	8.0	2/2	3.11s
#10	Qwen3.5-122B-A10B medium	Qwen	10.0	7.7	2/2	9.88s
#11	Claude Sonnet 4.6 medium	Anthropic	10.0	7.7	2/2	2.61s
#12	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.5	2/2	1.91s
#14	GLM 5 medium	Z.ai	10.0	7.4	2/2	7.25s
#17	Gemini 3.1 Flash Lite Preview low	Google	10.0	7.3	2/2	1.49s
#18	DeepSeek V3.2 medium	DeepSeek	10.0	7.3	2/2	35.8s
#21	MiMo-V2-Flash medium	Xiaomi	10.0	7.2	2/2	4.28s
#22	Gemini 3.1 Flash Lite Preview none	Google	10.0	7.1	2/2	1.13s
#23	Seed-2.0-Mini medium	Bytedance Seed	10.0	6.9	2/2	17.5s
#24	Qwen3.5-Flash medium	Qwen	10.0	6.9	2/2	63.5s
#26	Claude Opus 4.6 medium	Anthropic	10.0	6.6	2/2	2.43s
#28	Kimi K2.5 medium	Moonshot AI	10.0	6.4	2/2	92.5s
#29	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.2	2/2	1.67s
#31	GLM 5 none	Z.ai	10.0	6.0	2/2	1.48s
#33	DeepSeek V3.2 none	DeepSeek	10.0	5.5	2/2	1.52s
#35	Qwen3.5-35B-A3B medium	Qwen	10.0	5.5	2/2	24.4s
#36	Mercury 2 medium	Inception	10.0	5.3	2/2	1.07s
#53	Grok 4.1 Fast none	X AI	10.0	2.9	0/2	923ms
#5	Gemini 3 Flash Preview low	Google	9.5	8.2	2/2	7.02s
#6	Gemini 3 Pro Preview medium	Google	9.5	8.2	2/2	3.26s
#16	Gemini 2.5 Flash medium	Google	9.5	7.4	2/2	2.62s
#27	GPT-5.2 medium	OpenAI	9.5	6.5	2/2	3.12s
#39	gpt-oss-120b medium	OpenAI	9.5	5.1	2/2	7.63s
#8	Gemini 3.1 Flash Lite Preview high	Google	9.0	8.2	1/2	70.1s
#13	Step 3.5 Flash medium	Stepfun	9.0	7.4	1/2	4.98s
#19	GPT-5.3 Chat none	OpenAI	9.0	7.3	1/2	3.29s
#34	GPT-5 Nano medium	OpenAI	9.0	5.5	1/2	11.9s
#38	Gemini 2.5 Flash none	Google	9.0	5.2	1/2	672ms
#43	MiniMax M2.5 medium	Minimax	8.0	4.7	1/2	4.64s
#32	GPT-5 Mini medium	OpenAI	7.5	6.0	1/2	15.7s
#15	GPT-5.2 Chat none	OpenAI	6.0	7.4	1/2	5.46s
#20	Gemini 3 Flash Preview none	Google	5.5	7.2	1/2	1.58s
#25	Claude Sonnet 4.6 none	Anthropic	5.5	6.8	1/2	1.96s
#30	Grok 4.1 Fast medium	X AI	5.5	6.2	1/2	5.30s
#44	GPT-5.4 none	OpenAI	5.5	4.5	1/2	1.07s
#46	Kimi K2.5 none	Moonshot AI	5.5	4.1	1/2	2.67s
#49	GLM 4.7 Flash none	Z.ai	5.5	3.9	1/2	888ms
#51	Mercury 2 none	Inception	5.5	3.4	1/2	551ms
#54	MiMo-V2-Flash none	Xiaomi	5.5	2.9	1/2	857ms
#37	Qwen3.5-Flash none	Qwen	5.0	5.2	1/2	8.81s
#42	Qwen3.5-35B-A3B none	Qwen	5.0	4.7	1/2	809ms
#52	GLM 4.7 Flash medium	Z.ai	5.0	3.1	1/2	2.97s
#40	Qwen3.5-122B-A10B none	Qwen	4.5	5.0	0/2	585ms
#41	Qwen3.5-27B none	Qwen	4.5	4.9	0/2	815ms
#47	GPT-4o-mini none	OpenAI	4.5	4.0	0/2	1.27s
#48	Qwen3 Coder Next none	Qwen	4.5	4.0	0/2	7.71s
#50	Qwen3 Coder Next medium	Qwen	4.5	3.5	0/2	7.34s
#55	LFM2-24B-A2B none	Liquid	4.5	2.6	0/2	1.09s
#45	Trinity Large Preview none	Arcee AI	3.5	4.2	0/2	1.09s

Orodha ya Ufuataji wa maagizo

Modeli bora kwa Alama ya Ufuataji wa maagizo

Alama ya Ufuataji wa maagizo dhidi ya jumla ya gharama

Modeli bora kwa Muda wa majibu (wastani)