निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#48	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 1.79s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 2.38s
#56	Kimi K2.7 Code medium	Moonshot AI	9.9	7.5	$0.740	2/2	5.39s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 5.39s
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 7.02s
#69	Gemini 3.1 Flash Lite medium	Google	9.9	7.3	$0.117	2/2	2.59s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 2.59s
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 1.37s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	9.9	7.2	$0.482	2/2	2.67s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 2.67s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9.9	6.9	$0.467	2/2	2.58s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 2.58s
#88	MiMo-V2.5-Pro medium	Xiaomi	9.9	6.9	$0.187	2/2	2.77s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 2.77s
#98	GLM 5V Turbo medium	Z.ai	9.9	6.7	$0.457	2/2	3.74s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 3.74s
#107	MiMo-V2.5 medium	Xiaomi	9.9	6.5	$0.082	2/2	1.80s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 1.80s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 3.36s
#127	gpt-oss-120b medium	OpenAI	9.9	6.1	$0.019	2/2	7.63s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 7.63s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	9.9	4.8	$0.067	2/2	1.75s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 1.75s
#190	Hunter Alpha medium	OpenRouter	9.9	4.7	$0.000	2/2	4.18s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.18s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल