निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Granite 4.1 8B 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ18 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

210/210

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#136	GPT-5.4 Mini none	OpenAI	6.3	5.9	$0.095	1/2	728ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 728ms
#168	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 751ms
#210	LFM2-24B-A2B none	Liquid	6.3	2.2	$0.001	1/2	752ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 752ms
#180	GPT-5.4 Nano none	OpenAI	6.3	4.8	$0.041	1/2	784ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 784ms
#177	Nemotron 3 Super none	NVIDIA	6.3	4.9	$0.008	1/2	804ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 804ms
#127	Qwen3.5-35B-A3B none	Qwen	6.3	6.1	$0.106	1/2	809ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 809ms
#183	Trinity Large Preview none	Arcee AI	3.5	4.8	$0.008	0/2	822ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 822ms
#200	MiMo-V2-Flash none	Xiaomi	6.5	4.0	$0.025	1/2	857ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 857ms
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	2/2	859ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 859ms
#176	GLM 4.7 Flash none	Z.ai	6.5	4.9	$0.016	1/2	888ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 888ms
#88	Gemini 3.5 Flash minimal	Google	6.4	6.8	$0.300	1/2	893ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 893ms
#71	Qwen3.7 Plus none	Qwen	6.3	7.2	$0.106	1/2	929ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 929ms
#120	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	2/2	932ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 932ms
#59	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	2/2	943ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 943ms
#195	Elephant Alpha medium	Openrouter	9.8	4.3	$0.000	2/2	987ms
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 987ms

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल