निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ18 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

210/210

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#100	Hy3 preview medium	Tencent	10.0	6.5	$0.018	2/2	6.16s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 6.16s
#104	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 1.49s
#105	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 1.52s
#106	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	2/2	1.13s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 1.13s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	2/2	1.67s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 1.67s
#110	Gemma 4 31B medium	Google	10.0	6.3	$0.163	2/2	12.8s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 12.8s
#113	MiMo-V2-Flash medium	Xiaomi	10.0	6.3	$0.043	2/2	4.28s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 4.28s
#114	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	2/2	63.5s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 63.5s
#116	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	2/2	1.06s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 1.06s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	2/2	590ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 590ms
#119	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	2/2	24.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.837 प्रतिक्रिया समय (औसत) 24.4s
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 932ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 859ms
#129	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 1.46s
#135	Hy3 preview high	Tencent	10.0	5.9	$0.048	2/2	34.4s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 34.4s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल