निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Grok 4.1 Fast 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ18 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

210/210

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#125	Qwen3.5-Flash none	Qwen	6.3	6.1	$0.073	1/2	8.81s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 8.81s
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 809ms
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 728ms
#142	Qwen3.5-122B-A10B none	Qwen	6.3	5.7	$0.247	1/2	513ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 513ms
#156	Gemma 4 26B A4B none	Google	6.3	5.5	$0.015	1/2	690ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 690ms
#164	Inkling none	Thinkingmachines	6.3	5.2	$0.147	1/2	1.72s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 1.72s
#166	Qwen3 Coder Next none	Qwen	6.3	5.1	$0.025	1/2	7.78s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 7.78s
#174	GPT-4o-mini none	OpenAI	6.3	5.0	$0.010	1/2	1.11s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 1.11s
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 804ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 784ms
#187	Qwen3 Coder Next medium	Qwen	6.3	4.7	$0.032	1/2	7.49s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 7.49s
#191	Grok 4.20 Beta none	X AI	6.3	4.4	$0.087	1/2	649ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 649ms
#197	Grok 4.20 none	X AI	6.3	4.1	$0.057	1/2	445ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 445ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 752ms
#82	DeepSeek V4 Pro none	DeepSeek	6.3	6.9	$0.096	1/2	4.12s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 4.12s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल