निर्देश पालन मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Kimi K2.5 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ53 विफलता कारण निर्देशों का पालन नहीं किया के साथ11 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ2 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#62	Step 3.5 Flash medium	Stepfun	8.3	7.2	1/2	4.78s
#86	Grok 4.1 Fast medium	X AI	6.5	6.5	1/2	4.63s
#92	Laguna M.1 medium	Poolside	10.0	6.4	2/2	4.30s
#64	MiMo-V2-Flash medium	Xiaomi	10.0	7.2	2/2	4.28s
#65	Grok 4.20 medium	X AI	9.8	7.1	2/2	4.26s
#101	Mimo V2 Omni none	Xiaomi	6.5	6.0	1/2	4.26s
#79	Hunter Alpha medium	OpenRouter	9.9	6.7	2/2	4.18s
#1	Gemini 3 Flash Preview medium	Google	10.0	9.8	2/2	4.04s
#6	GPT-5.5 low	OpenAI	9.9	9.0	2/2	3.74s
#59	GLM 5V Turbo medium	Z.ai	9.9	7.2	2/2	3.74s
#84	Grok 4.20 Multi Agent Beta medium	X AI	9.8	6.6	2/2	3.52s
#63	GPT-5.3 Chat none	OpenAI	9.8	7.2	2/2	3.51s
#93	Qwen3.6 Plus Preview medium	Qwen	6.5	6.3	1/2	3.40s
#20	Gemini 3.5 Flash none	Google	9.8	8.1	2/2	3.38s
#9	GPT-5.5 medium	OpenAI	10.0	8.8	2/2	3.36s

निर्देश पालन रैंकिंग

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल