निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 7.00s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 2.78s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 6.14s
#52	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 12.4s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 1.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 18.6s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 3.38s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 2.61s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 1.51s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	9.8	5.4	$0.041	2/2	1.64s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.64s
#184	Ling-2.6-flash none	Inclusionai	9.8	4.9	$0.002	2/2	5.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 5.52s
#194	Cobuddy medium	Baidu	9.8	4.7	$0.000	2/2	11.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 11.6s
#199	Elephant Alpha none	Openrouter	9.8	4.3	$0.000	2/2	1.03s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.03s
#201	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 987ms
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 6.23s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल