निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Laguna XS 2.1 3.8

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ18 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

210/210

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#83	GPT-5.6 Sol none	OpenAI	8.5	6.9	$0.524	1/2	1.33s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.33s
#87	GPT-5.5 none	OpenAI	6.2	6.9	$0.544	1/2	1.15s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.15s
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 893ms
#89	Gemini 3 Flash Preview none	Google	6.4	6.8	$0.085	1/2	1.58s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 1.58s
#91	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.39s
#97	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 6.96s
#103	Qwen3.5-27B none	Qwen	6.3	6.5	$0.090	1/2	1.03s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 1.03s
#111	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.82s
#112	Claude Sonnet 5 none	Anthropic	6.4	6.3	$0.548	1/2	2.58s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 2.58s
#115	Gemma 4 31B none	Google	6.5	6.2	$0.035	1/2	2.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.035 प्रतिक्रिया समय (औसत) 2.84s
#117	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 2.04s
#124	Qwen3.6 Flash none	Qwen	6.3	6.1	$0.062	1/2	1.10s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.10s
#125	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 8.81s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	6.2	6.1	$0.122	1/2	1.17s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.17s
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 809ms

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल