निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.369 प्रतिक्रिया समय (औसत) 1.59s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 2.57s
#114	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 11.8s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 15.6s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 3.26s
#143	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 15.4s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 1.98s
#169	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 64.0s
#185	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 27.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 3.52s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 7.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 5.06s
#87	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.33s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल