AI BENCHY
Your ad here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Grok 4.1 Fast 3.0
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#76 Kimi K2.5 none Moonshot AI 6.5 5.5 1/2 2.67s
#77 GLM 5 Turbo none Z.ai 6.5 5.5 1/2 2.13s
#83 Mistral Small 4 none Mistral 6.5 5.2 1/2 380ms
#90 Qwen3.5-9B none Qwen 6.5 4.8 1/2 514ms
#91 Mercury 2 none Inception 6.5 4.8 1/2 551ms
#94 MiMo-V2-Flash none Xiaomi 6.5 4.5 1/2 857ms
#52 Grok 4.1 Fast medium X AI 6.6 6.7 1/2 5.30s
#51 Nemotron 3 Super medium NVIDIA 7.2 6.7 1/2 7.72s
#47 Grok 4.20 medium X AI 7.3 7.0 1/2 4.42s
#73 Mistral Small 4 medium Mistral 7.3 5.7 1/2 1.38s
#44 GPT-5.4 Mini medium OpenAI 7.4 7.3 1/2 2.50s
#28 GPT-5.2 Chat none OpenAI 7.5 7.9 1/2 5.46s
#11 Gemini 3.1 Flash Lite Preview high Google 7.9 8.4 1/2 70.1s
#62 Gemini 2.5 Flash none Google 8.0 6.2 1/2 672ms
#45 GPT-5 Mini medium OpenAI 8.0 7.0 1/2 15.7s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल