निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Kimi K2.5 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ18 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

210/210

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#150	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.044	1/2	17.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 17.5s
#95	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	2/2	17.5s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.089 प्रतिक्रिया समय (औसत) 17.5s
#80	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	2/2	17.5s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 17.5s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.267 प्रतिक्रिया समय (औसत) 16.1s
#153	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 16.0s
#128	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 15.6s
#137	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 15.4s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	2/2	15.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 15.4s
#199	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 13.0s
#172	MiniMax M2.7 medium	Minimax	3.8	5.0	$0.163	0/2	12.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 12.8s
#110	Gemma 4 31B medium	Google	10.0	6.3	$0.163	2/2	12.8s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 12.8s
#68	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	2/2	12.5s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 12.5s
#48	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 12.4s
#108	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 11.8s
#188	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 11.6s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल