निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Granite 4.1 8B 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ18 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

210/210

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#154	MiMo-V2.5-Pro none	Xiaomi	6.4	5.5	$0.068	1/2	1.03s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 1.03s
#103	Qwen3.5-27B none	Qwen	6.3	6.5	$0.090	1/2	1.03s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 1.03s
#193	Elephant Alpha none	Openrouter	9.8	4.3	$0.000	2/2	1.03s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.03s
#116	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	2/2	1.06s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 1.06s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	2/2	1.07s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 1.07s
#139	GPT-5.4 none	OpenAI	6.5	5.8	$0.397	1/2	1.07s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 1.07s
#124	Qwen3.6 Flash none	Qwen	6.3	6.1	$0.062	1/2	1.10s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.10s
#174	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 1.11s
#106	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	2/2	1.13s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 1.13s
#132	GPT-5.6 Terra none	OpenAI	8.5	6.0	$0.349	1/2	1.15s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 1.15s
#87	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.15s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.17s
#159	GPT-5.6 Luna none	OpenAI	7.1	5.4	$0.142	1/2	1.23s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 1.23s
#83	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.33s
#66	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 1.37s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल