निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 9.9

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 6.96s
#109	Qwen3.5-27B none	Qwen	6.3	6.5	$0.090	1/2	1.03s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 1.03s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.82s
#118	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 2.58s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 2.84s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 2.04s
#130	Qwen3.6 Flash none	Qwen	6.3	6.1	$0.062	1/2	1.10s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.10s
#131	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 8.81s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.17s
#133	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 809ms
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 4.78s
#138	GPT-5.6 Terra none	OpenAI	8.5	6.0	$0.349	1/2	1.15s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 1.15s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 4.99s
#142	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 728ms
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 1.64s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल