निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#23	Grok 4.5 low	X AI	9.8	8.4	$0.935	2/2	2.80s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 2.80s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 6.06s
#28	Gemini 2.5 Flash medium	Google	9.8	8.2	$0.643	2/2	2.62s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 2.62s
#33	Step 3.7 Flash medium	Stepfun	9.8	8.0	$0.515	2/2	1.83s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 1.83s
#34	GPT-5.2 Chat none	OpenAI	9.8	8.0	$0.604	2/2	5.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 5.51s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.17s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 6.35s
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 3.51s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 2.13s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 1.58s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 4.26s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 1.52s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	2/2	869ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.145 प्रतिक्रिया समय (औसत) 869ms
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 3.84s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 1.40s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल