AI BENCHY
Advertise here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

MiniMax M2.7 3.8
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#12 Gemini 3.1 Flash Lite Preview high Google 9.8 8.6 2/2 64.0s
#13 Grok 4.20 Beta medium X AI 9.8 8.5 2/2 4.89s
#14 Qwen3.6 Max Preview medium Qwen 10.0 8.5 2/2 24.3s
#15 GPT-5.3-Codex medium OpenAI 10.0 8.4 2/2 3.04s
#16 Gemini 3 Flash Preview low Google 9.9 8.4 2/2 7.02s
#17 GLM 5 medium Z.ai 10.0 8.3 2/2 7.25s
#18 Qwen3.7 Plus medium Qwen 10.0 8.2 2/2 16.1s
#19 Seed-2.0-Lite medium Bytedance Seed 10.0 8.2 2/2 7.26s
#20 Gemini 3.5 Flash none Google 9.8 8.1 2/2 3.38s
#21 GPT-5.4 medium OpenAI 10.0 8.0 2/2 3.11s
#22 Step 3.7 Flash medium Stepfun 9.8 8.0 2/2 1.83s
#23 GLM 5 Turbo medium Z.ai 10.0 8.0 2/2 5.38s
#24 GPT-5.2 Chat none OpenAI 9.8 7.9 2/2 5.51s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 10.0 7.9 2/2 31.9s
#26 Qwen3.6 Plus medium Qwen 10.0 7.9 2/2 7.54s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल