निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Granite 4.1 8B 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 3.35s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 3.36s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 3.36s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 3.38s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.40s
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 3.51s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 3.52s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 3.74s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 3.74s
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 3.84s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 3.94s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.742 प्रतिक्रिया समय (औसत) 4.04s
#86	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 4.12s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.18s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 4.26s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल