निर्देश पालन मॉडल रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत निर्देश पालन स्कोर

8.6

सर्वश्रेष्ठ मॉडल

Kimi K2.5 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ61 विफलता कारण निर्देशों का पालन नहीं किया के साथ19 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2 विफलता कारण API त्रुटि के साथ1 विफलता कारण समय समाप्त के साथ1

216/216

रैंक	मॉडल	कंपनी	निर्देश पालन स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#58	GPT-5.3 Chat none	OpenAI	9.8	7.5	$0.571	2/2	3.51s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 3.51s
#181	Qwen3.6 Plus Preview medium	Qwen	6.5	4.9	$0.000	1/2	3.40s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.40s
#83	Gemini 3.5 Flash none	Google	9.8	7.0	$1.079	2/2	3.38s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 3.38s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	2/2	3.36s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 3.36s
#115	Mimo V2 PRO medium	Xiaomi	9.9	6.3	$0.333	2/2	3.36s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 3.36s
#4	Gemini 3.5 Flash high	Google	10.0	9.5	$1.976	2/2	3.35s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 3.35s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	2/2	3.32s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.931 प्रतिक्रिया समय (औसत) 3.32s
#139	Gemini 3 PRO Preview medium	Google	9.8	6.0	$0.385	2/2	3.26s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 3.26s
#24	GPT-5.2 medium	OpenAI	9.9	8.4	$0.951	2/2	3.12s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 3.12s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	2/2	3.11s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 3.11s
#26	Claude Sonnet 5 medium	Anthropic	9.9	8.3	$0.922	2/2	3.10s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 3.10s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	2/2	3.04s
कुल टेस्ट 2 गलत टेस्ट 0 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 3.04s
#200	GLM 4.7 Flash medium	Z.ai	6.2	4.3	$0.166	1/2	2.97s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 2.97s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 2.84s
#202	Hunter Alpha none	OpenRouter	6.4	4.2	$0.000	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.82s

निर्देश पालन रैंकिंग

मॉडल फ़िल्टर करें

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल