निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Granite 4.1 8B 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#14	Gemini 3.5 Flash low	Google	9.9	8.9	$0.433	2/2	1.86s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 1.86s
#31	Gemini 3.5 Flash-Lite high	Google	8.5	8.1	$0.584	1/2	1.87s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 1.87s
#57	GPT-5.4 Nano medium	OpenAI	9.8	7.5	$0.138	2/2	1.88s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 1.88s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	2/2	1.91s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 1.91s
#158	Qwen3.6 27B none	Qwen	6.2	5.5	$0.087	1/2	1.92s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 1.92s
#67	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 1.96s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 1.97s
#157	GLM 5.1 none	Z.ai	9.8	5.5	$0.164	2/2	1.98s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 1.98s
#123	GPT-5.6 Luna low	OpenAI	8.5	6.2	$0.249	1/2	2.04s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 2.04s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	2/2	2.05s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.517 प्रतिक्रिया समय (औसत) 2.05s
#60	GPT-5.4 Mini medium	OpenAI	9.8	7.5	$0.756	2/2	2.13s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 2.13s
#176	GLM 5 Turbo none	Z.ai	6.5	5.1	$0.047	1/2	2.13s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.13s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 2.14s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	2/2	2.27s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 2.27s
#54	GPT-5.6 Luna medium	OpenAI	9.9	7.6	$0.352	2/2	2.38s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 2.38s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल