निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Laguna XS 2.1 3.8

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#205	Hy3 preview none	Tencent	6.3	4.0	$0.003	1/2	13.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 13.0s
#206	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 857ms
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 5.75s
#211	Laguna Xs.2 none	Poolside	6.5	3.8	$0.004	1/2	439ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 439ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.37s
#216	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 752ms
#1	Gemini 3.6 Flash medium	Google	9.9	9.9	$0.831	2/2	2.77s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.831 प्रतिक्रिया समय (औसत) 2.77s
#2	Gemini 3.6 Flash high	Google	9.9	9.7	$1.785	2/2	3.94s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 3.94s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	2/2	4.04s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.742 प्रतिक्रिया समय (औसत) 4.04s
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 3.35s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	2.27s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 2.27s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	2/2	2.05s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.517 प्रतिक्रिया समय (औसत) 2.05s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	2/2	2.50s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 2.50s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	2/2	2.73s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 2.73s
#9	GPT-5.5 low	OpenAI	9.9	9.3	$1.253	2/2	3.74s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 3.74s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल