निर्देश पालन मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Kimi K2.5 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ53 विफलता कारण निर्देशों का पालन नहीं किया के साथ11 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ2 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	सही परीक्षण	प्रतिक्रिया समय (औसत)
#17	GLM 5 medium	Z.ai	10.0	8.3	2/2	7.25s
#16	Gemini 3 Flash Preview low	Google	9.9	8.4	2/2	7.02s
#105	Nemotron 3 Super medium	NVIDIA	7.3	5.8	1/2	6.97s
#41	Nemotron 3 Ultra 550b A55b medium	NVIDIA	9.8	7.5	2/2	6.35s
#33	Hy3 preview medium	Tencent	10.0	7.7	2/2	6.16s
#67	MiniMax M3 medium	Minimax	9.8	7.1	2/2	6.14s
#39	Qwen3.6 Flash medium	Qwen	10.0	7.5	2/2	6.05s
#161	Qwen3.5-9B medium	Qwen	6.5	4.2	1/2	5.75s
#138	Ling-2.6-flash none	Inclusionai	9.8	5.0	2/2	5.52s
#24	GPT-5.2 Chat none	OpenAI	9.8	7.9	2/2	5.51s
#23	GLM 5 Turbo medium	Z.ai	10.0	8.0	2/2	5.38s
#159	Ling-2.6-1T none	Inclusionai	6.4	4.3	1/2	5.36s
#126	gpt-oss-120b none	OpenAI	9.8	5.4	2/2	5.06s
#80	Mimo V2 Omni medium	Xiaomi	8.3	6.7	1/2	4.99s
#13	Grok 4.20 Beta medium	X AI	9.8	8.5	2/2	4.89s

निर्देश पालन रैंकिंग

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल