निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Granite 4.1 8B 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#70	Claude Opus 4.8 none	Anthropic	9.9	7.3	$1.166	2/2	1.37s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 1.37s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	1.37s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.37s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.38s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 1.38s
#103	Qwen3.6 Max Preview none	Qwen	9.8	6.6	$0.231	2/2	1.40s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 1.40s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 1.43s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	2/2	1.46s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 1.46s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	2/2	1.46s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 1.46s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	2/2	1.48s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.48s
#59	GPT-5.6 Terra low	OpenAI	10.0	7.5	$0.519	2/2	1.48s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 1.48s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	2/2	1.49s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 1.49s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	2/2	1.50s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 1.50s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9.8	5.6	$0.077	2/2	1.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 1.51s
#90	Step 3.7 Flash high	Stepfun	9.8	6.9	$1.207	2/2	1.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 1.52s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	2/2	1.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 1.52s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	2/2	1.52s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 1.52s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल