निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Grok 4.1 Fast 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ18 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

210/210

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#192	Laguna M.1 none	Poolside	6.3	4.4	$0.009	1/2	683ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 683ms
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 13.0s
#112	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 2.58s
#148	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.63s
#154	MiMo-V2.5-Pro none	Xiaomi	6.4	5.5	$0.068	1/2	1.03s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 1.03s
#162	Ling-2.6-1T none	Inclusionai	6.4	5.3	$0.016	1/2	5.36s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 5.36s
#196	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.82s
#27	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 7.81s
#74	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 7.47s
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 893ms
#89	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 1.58s
#16	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 6.31s
#60	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 7.38s
#63	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 1.96s
#91	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.39s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल