निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Grok 4.1 Fast 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#143	North Mini Code medium	Cohere	9.8	5.9	$0.000	2/2	15.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 15.4s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 1.98s
#169	Gemini 3.1 Flash Lite Preview high	Google	9.8	5.3	$2.310	2/2	64.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 64.0s
#185	Ring-2.6-1T none	Inclusionai	9.8	4.8	$0.026	2/2	27.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 27.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	9.8	4.8	$5.599	2/2	3.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 3.52s
#208	Grok Build 0.1 none	X AI	9.8	4.0	$0.547	2/2	7.36s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 7.36s
#212	gpt-oss-120b none	OpenAI	9.8	3.7	$0.010	2/2	5.06s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 5.06s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 7.00s
#45	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 2.78s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 6.14s
#52	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 12.4s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 1.88s
#77	Grok 4.3 medium	X AI	9.8	7.1	$0.779	2/2	18.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 18.6s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 3.38s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	9.8	6.7	$0.476	2/2	2.61s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 2.61s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल