निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Kimi K2.5 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#29	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	2/2	11.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 11.6s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.2s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	2/2	9.88s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.046 प्रतिक्रिया समय (औसत) 9.88s
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	2/2	9.56s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.361 प्रतिक्रिया समय (औसत) 9.56s
#215	Step 3.5 Flash none	Stepfun	5.0	2.3	$0.020	1/1	9.30s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 9.30s
#131	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 8.81s
#50	DeepSeek V4 Pro high	DeepSeek	7.8	7.7	$0.200	1/2	8.73s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 8.73s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 7.90s
#30	Muse Spark 1.1 high	Meta	6.4	8.1	$1.694	1/2	7.81s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 7.81s
#172	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.025	1/2	7.78s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 7.78s
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	2/2	7.66s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 7.66s
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 7.63s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 7.54s
#94	Qwen3.6 35B A3B medium	Qwen	10.0	6.7	$0.746	2/2	7.50s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 7.50s
#193	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 7.49s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल