निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 9.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#19	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 6.31s
#27	Muse Spark 1.1 low	Meta	7.3	8.3	$0.647	1/2	5.42s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 5.42s
#30	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 7.81s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 1.87s
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 8.73s
#64	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 7.38s
#67	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 1.96s
#75	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 929ms
#78	GLM 5.1 medium	Z.ai	6.4	7.1	$0.535	1/2	7.47s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 7.47s
#86	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 4.12s
#87	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.33s
#91	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.15s
#92	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 893ms
#93	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 1.58s
#96	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.39s

←

1 9 10 11 15

→

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल