AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

8

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Mistral Small 4 6.5
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#24 Gemma 4 26B A4B medium Google 10.0 8.0 2/2 17.5s
#10 Qwen3.5-27B medium Qwen 10.0 8.4 2/2 19.7s
#43 Qwen3.5-35B-A3B medium Qwen 10.0 7.4 2/2 24.4s
#8 Qwen3.5 Plus 2026-02-15 medium Qwen 10.0 8.5 2/2 31.9s
#27 DeepSeek V3.2 medium DeepSeek 10.0 8.0 2/2 35.8s
#32 Qwen3.5-Flash medium Qwen 10.0 7.8 2/2 63.5s
#11 Gemini 3.1 Flash Lite Preview high Google 7.9 8.4 1/2 70.1s
#46 Kimi K2.5 medium Moonshot AI 10.0 7.0 2/2 92.5s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल