निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Kimi K2.5 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 2.58s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 2.57s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	2/2	2.53s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 2.53s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 2.51s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 2.50s
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 2.43s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 2.38s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	2.27s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 2.27s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 2.14s
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.13s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 2.13s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	2/2	2.05s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.517 प्रतिक्रिया समय (औसत) 2.05s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 2.04s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 1.98s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 1.97s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल