निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 9.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#169	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 64.0s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 1.52s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 5.52s
#185	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 27.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 3.52s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 1.75s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.18s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 4.30s
#194	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 11.6s
#199	Elephant Alpha none	Openrouter	9.8	4.3	$0.000	2/2	1.03s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.03s
#201	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 987ms
#204	Laguna Xs.2 medium	Poolside	10.0	4.1	$0.015	2/2	1.68s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.68s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 7.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 5.06s
#215	Step 3.5 Flash none	Stepfun	5.0	2.3	$0.020	1/1	9.30s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 9.30s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल