निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Kimi K2.5 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 4.78s
#191	Grok 4.1 Fast medium	X AI	6.5	4.7	$0.069	1/2	4.63s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 4.63s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 4.30s
#119	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 4.28s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 4.26s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.817 प्रतिक्रिया समय (औसत) 4.26s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 4.26s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.18s
#86	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 4.12s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.742 प्रतिक्रिया समय (औसत) 4.04s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 3.94s
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 3.84s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 3.74s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 3.74s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 3.52s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल