निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Grok 4.1 Fast 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 3.51s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 2.13s
#71	Step 3.7 Flash low	Stepfun	9.8	7.3	$0.454	2/2	1.58s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 1.58s
#79	Grok 4.20 medium	X AI	9.8	7.1	$0.777	2/2	4.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 4.26s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 1.52s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	2/2	869ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.145 प्रतिक्रिया समय (औसत) 869ms
#101	GLM 5.2 none	Z.ai	9.8	6.6	$0.128	2/2	3.84s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 3.84s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 1.40s
#104	Gemini 3.5 Flash-Lite medium	Google	9.8	6.5	$0.369	2/2	1.59s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.369 प्रतिक्रिया समय (औसत) 1.59s
#108	Laguna XS 2.1 medium	Poolside	9.8	6.5	$0.068	2/2	2.57s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 2.57s
#114	Ring-2.6-1T medium	Inclusionai	9.8	6.3	$0.103	2/2	11.8s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 11.8s
#129	Inkling low	Thinkingmachines	9.8	6.1	$0.187	2/2	1.81s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 1.81s
#134	GPT-5 Nano medium	OpenAI	9.8	6.1	$0.114	2/2	15.6s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 15.6s
#137	Grok 4.20 Beta medium	X AI	9.8	6.0	$0.750	2/2	4.89s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 4.89s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 3.26s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल