निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Grok 4.1 Fast 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 8.73s
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 4.78s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 4.99s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 1.87s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 2.04s
#87	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.33s
#138	GPT-5.6 Terra none	OpenAI	8.5	6.0	$0.349	1/2	1.15s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 1.15s
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 6.23s
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 2.80s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 6.06s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 2.62s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 5.51s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.17s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 6.35s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल