AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Mistral Small 4 6.5
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#56 Grok 4.20 Multi Agent Beta medium X AI 8.3 6.4 1/2 4.63s
#71 MiniMax M2.5 medium Minimax 8.1 5.7 1/2 4.64s
#35 MiMo-V2-Omni medium Xiaomi 8.3 7.7 1/2 4.92s
#25 Grok 4.20 Beta medium X AI 8.3 8.0 1/2 4.97s
#30 Step 3.5 Flash medium Stepfun 8.5 7.9 1/2 4.98s
#84 gpt-oss-120b none OpenAI 8.4 5.2 1/2 5.10s
#52 Grok 4.1 Fast medium X AI 6.6 6.7 1/2 5.30s
#18 GLM 5 Turbo medium Z.ai 10.0 8.1 2/2 5.38s
#28 GPT-5.2 Chat none OpenAI 7.5 7.9 1/2 5.46s
#1 Gemini 3 Flash Preview medium Google 10.0 10.0 2/2 6.10s
#5 Gemini 3 Flash Preview low Google 9.9 8.8 2/2 7.02s
#13 GLM 5 medium Z.ai 10.0 8.4 2/2 7.25s
#6 Seed-2.0-Lite medium Bytedance Seed 10.0 8.6 2/2 7.26s
#92 Qwen3 Coder Next medium Qwen 4.8 4.7 0/2 7.34s
#33 GLM 5.1 medium Z.ai 6.4 7.8 1/2 7.47s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल