निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Granite 4.1 8B 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	2/2	1.57s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.477 प्रतिक्रिया समय (औसत) 1.57s
#93	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 1.58s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 1.58s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.369 प्रतिक्रिया समय (औसत) 1.59s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 1.64s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.64s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	2/2	1.67s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 1.67s
#204	Laguna Xs.2 medium	Poolside	10.0	4.1	$0.015	2/2	1.68s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.68s
#170	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 1.72s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 1.75s
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 1.79s
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 1.80s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 1.81s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 1.83s
#167	Qwen3.6 35B A3B none	Qwen	6.2	5.3	$0.061	1/2	1.86s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 1.86s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल