निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Laguna XS 2.1 3.8

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#177	North Mini Code none	Cohere	6.5	5.1	$0.000	1/2	30.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 30.7s
#180	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 1.11s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.40s
#182	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 888ms
#183	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 804ms
#186	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 784ms
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 4.63s
#193	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 7.49s
#195	Mercury 2 none	Inception	6.5	4.6	$0.030	1/2	551ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 551ms
#196	MiniMax M2.5 medium	Minimax	7.5	4.6	$0.340	1/2	621ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 621ms
#197	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 649ms
#198	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 683ms
#200	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 2.97s
#202	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.82s
#203	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 445ms

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल