निर्देश पालन मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Kimi K2.5 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ53 विफलता कारण निर्देशों का पालन नहीं किया के साथ11 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ2 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#76	Kimi K2.5 medium	Moonshot AI	10.0	6.8	2/2	92.5s
#12	Gemini 3.1 Flash Lite Preview high	Google	9.8	8.6	2/2	64.0s
#49	Qwen3.5-Flash medium	Qwen	10.0	7.4	2/2	63.5s
#103	DeepSeek V4 Pro high	DeepSeek	10.0	6.0	2/2	41.2s
#78	Qwen3.6 27B medium	Qwen	10.0	6.8	2/2	38.0s
#72	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	2/2	35.8s
#82	Hy3 preview high	Tencent	10.0	6.6	2/2	34.4s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.9	2/2	31.9s
#96	Ring-2.6-1T none	Inclusionai	9.8	6.2	2/2	27.4s
#66	Qwen3.5-35B-A3B medium	Qwen	10.0	7.1	2/2	24.4s
#14	Qwen3.6 Max Preview medium	Qwen	10.0	8.5	2/2	24.3s
#53	Gemini 3.1 Flash Lite high	Google	7.3	7.3	1/2	23.3s
#36	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.6	2/2	20.2s
#30	Qwen3.5-27B medium	Qwen	10.0	7.8	2/2	19.7s
#38	Grok 4.3 medium	X AI	9.8	7.6	2/2	18.6s

1 2 11

→

निर्देश पालन रैंकिंग

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल