निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Granite 4.1 8B 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	2.73s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 2.73s
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.831 प्रतिक्रिया समय (औसत) 2.77s
#88	MiMo-V2.5-Pro medium	Xiaomi	9.9	6.9	$0.187	2/2	2.77s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 2.77s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 2.78s
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 2.80s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.82s
#202	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.82s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 2.84s
#200	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 2.97s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	3.04s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 3.04s
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 3.10s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	3.11s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 3.11s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 3.12s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 3.26s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	2/2	3.32s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.931 प्रतिक्रिया समय (औसत) 3.32s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल