निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 9.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 7.63s
#128	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 859ms
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 15.6s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 1.46s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 3.26s
#141	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 34.4s
#143	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 15.4s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.48s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 1.51s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 1.50s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 1.98s
#159	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 16.0s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.64s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल