निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Laguna XS 2.1 3.8

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#133	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 809ms
#136	Step 3.5 Flash medium	Stepfun	8.3	6.0	$0.108	1/2	4.78s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 4.78s
#138	GPT-5.6 Terra none	OpenAI	8.5	6.0	$0.349	1/2	1.15s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 1.15s
#140	Mimo V2 Omni medium	Xiaomi	8.3	5.9	$0.683	1/2	4.99s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 4.99s
#142	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 728ms
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 1.64s
#145	GPT-5.4 none	OpenAI	6.5	5.8	$0.397	1/2	1.07s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 1.07s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.055 प्रतिक्रिया समय (औसत) 6.97s
#148	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 513ms
#149	Gemini 3.1 Flash Lite high	Google	7.3	5.6	$2.044	1/2	23.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 23.3s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 1.97s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 10.2s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 2.51s
#154	Owl Alpha none	Openrouter	6.4	5.6	$0.000	1/2	2.63s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.63s
#156	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.042	1/2	17.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 17.5s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल