निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Granite 4.1 8B 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 2.43s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 2.50s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 2.51s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 2.53s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 2.57s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 2.58s
#118	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 2.58s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 2.59s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $2.057 प्रतिक्रिया समय (औसत) 2.61s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 2.61s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 2.62s
#154	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.63s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 2.67s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 2.67s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 2.70s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल