निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Laguna XS 2.1 3.8

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 3.10s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 2.62s
#29	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	2/2	11.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 11.6s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 7.00s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 5.51s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	2/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.817 प्रतिक्रिया समय (औसत) 4.26s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.17s
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	2/2	7.66s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 7.66s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 2.14s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	2/2	7.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 7.26s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.267 प्रतिक्रिया समय (औसत) 16.1s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 7.54s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 7.90s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 1.43s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल