निर्देश पालन मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Grok 4.1 Fast 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ53 विफलता कारण निर्देशों का पालन नहीं किया के साथ11 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ2 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#157	Grok 4.1 Fast none	X AI	3.0	4.4	0/2	685ms
#151	Trinity Large Preview none	Arcee AI	3.5	4.6	0/2	822ms
#163	Granite 4.1 8B none	IBM Granite	3.6	4.0	0/2	344ms
#130	MiniMax M2.7 medium	Minimax	3.8	5.3	0/2	12.8s
#162	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	4.1	0/2	541ms
#91	GPT-5.5 none	OpenAI	6.2	6.4	1/2	1.15s
#114	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	5.7	1/2	1.17s
#153	Qwen3.6 35B A3B none	Qwen	6.2	4.6	1/2	1.86s
#158	GLM 4.7 Flash medium	Z.ai	6.2	4.4	1/2	2.97s
#118	Qwen3.6 27B none	Qwen	6.2	5.6	1/2	1.92s
#88	Qwen3.7 Plus none	Qwen	6.3	6.4	1/2	929ms
#102	Gemma 4 26B A4B none	Google	6.3	6.0	1/2	690ms
#106	Grok 4.20 Beta none	X AI	6.3	5.8	1/2	649ms
#108	Qwen3.5-Flash none	Qwen	6.3	5.8	1/2	8.81s
#115	Qwen3.5-27B none	Qwen	6.3	5.7	1/2	1.03s

1 2 11

→

निर्देश पालन रैंकिंग

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल