AI BENCHY
Your ad here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#51 Nemotron 3 Super medium NVIDIA 7.2 6.7 1/2 7.72s
#52 Grok 4.1 Fast medium X AI 6.6 6.7 1/2 5.30s
#42 Claude Sonnet 4.6 none Anthropic 6.5 7.4 1/2 1.96s
#48 Gemma 4 31B none Google 6.5 6.9 1/2 2.84s
#55 MiMo-V2-Omni none Xiaomi 6.5 6.5 1/2 4.18s
#58 GLM 5V Turbo none Z.ai 6.5 6.2 1/2 1.97s
#65 MiMo-V2-Pro none Xiaomi 6.5 6.0 1/2 2.51s
#66 GPT-5.4 none OpenAI 6.5 5.9 1/2 1.07s
#69 Kimi K2.6 none Moonshot AI 6.5 5.8 1/2 1.64s
#74 GLM 4.7 Flash none Z.ai 6.5 5.6 1/2 888ms
#76 Kimi K2.5 none Moonshot AI 6.5 5.5 1/2 2.67s
#77 GLM 5 Turbo none Z.ai 6.5 5.5 1/2 2.13s
#83 Mistral Small 4 none Mistral 6.5 5.2 1/2 380ms
#90 Qwen3.5-9B none Qwen 6.5 4.8 1/2 514ms
#91 Mercury 2 none Inception 6.5 4.8 1/2 551ms

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल