निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Grok 4.1 Fast 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 6.96s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.82s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 2.84s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 1.64s
#145	GPT-5.4 none	OpenAI	6.5	5.8	$0.397	1/2	1.07s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 1.07s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 1.97s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.2s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 2.51s
#156	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.042	1/2	17.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 17.5s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 2.67s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 4.26s
#171	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 380ms
#174	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 751ms
#175	Qwen3.5-9B none	Qwen	6.5	5.1	$0.021	1/2	514ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 514ms
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.13s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल