निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ18 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

210/210

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#17	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	2/2	5.90s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 5.90s
#18	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	3.11s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 3.11s
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	2/2	24.3s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.143 प्रतिक्रिया समय (औसत) 24.3s
#20	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 2.80s
#21	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 3.12s
#22	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 6.06s
#23	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 3.10s
#25	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 2.62s
#26	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	2/2	11.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 11.6s
#28	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 7.00s
#29	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 1.83s
#30	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 5.51s
#31	GLM 5.2 high	Z.ai	10.0	8.0	$0.970	2/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.970 प्रतिक्रिया समय (औसत) 4.26s
#32	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.17s
#33	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	2/2	7.66s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 7.66s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल