निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#141	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 34.4s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.48s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 1.50s
#159	Hy3 preview low	Tencent	10.0	5.5	$0.015	2/2	16.0s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 16.0s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 1.52s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	2/2	4.30s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 4.30s
#204	Laguna Xs.2 medium	Poolside	10.0	4.1	$0.015	2/2	1.68s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.68s
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.831 प्रतिक्रिया समय (औसत) 2.77s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 3.94s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 3.74s
#12	Gemini 3.5 Flash medium	Google	9.9	9.1	$0.642	2/2	2.70s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 2.70s
#14	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 1.86s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 3.12s
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 3.10s
#42	GLM 5.2 medium	Z.ai	9.9	7.8	$0.187	2/2	7.90s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 7.90s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल