निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Granite 4.1 8B 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#210	Qwen3.5-9B medium	Qwen	6.5	3.8	$0.036	1/2	5.75s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 5.75s
#20	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	2/2	5.90s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 5.90s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	2/2	6.05s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 6.05s
#25	Grok 4.5 medium	X AI	9.8	8.3	$1.928	2/2	6.06s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 6.06s
#51	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 6.14s
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	2/2	6.16s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 6.16s
#36	Inkling medium	Thinkingmachines	9.8	8.0	$0.391	2/2	6.17s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.17s
#15	Grok 4.5 high	X AI	9.8	8.9	$1.707	2/2	6.23s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 6.23s
#19	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 6.31s
#55	Nemotron 3 Ultra medium	NVIDIA	9.8	7.5	$0.774	2/2	6.35s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 6.35s
#96	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 6.39s
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 6.96s
#146	Nemotron 3 Super medium	NVIDIA	7.3	5.7	$0.055	1/2	6.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.055 प्रतिक्रिया समय (औसत) 6.97s
#32	Inkling high	Thinkingmachines	9.8	8.0	$1.006	2/2	7.00s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 7.00s
#65	Gemini 3 Flash Preview low	Google	9.9	7.4	$0.177	2/2	7.02s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 7.02s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल