निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Granite 4.1 8B 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.817 प्रतिक्रिया समय (औसत) 4.26s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 4.26s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 4.28s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 4.30s
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 4.63s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 4.78s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 4.89s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 4.99s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 5.06s
#168	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 5.36s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 5.38s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 5.39s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 5.42s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 5.51s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 5.52s

←

1 9 10 11 15

→

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल