निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Grok 4.1 Fast 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 1.51s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.64s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 5.52s
#194	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 11.6s
#199	Elephant Alpha none	Openrouter	9.8	4.3	$0.000	2/2	1.03s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.03s
#201	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 987ms
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.831 प्रतिक्रिया समय (औसत) 2.77s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 3.94s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 3.74s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 2.70s
#14	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 1.86s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 3.12s
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 3.10s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 7.90s
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 1.79s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल