AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Mistral Small 4 6.5
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#83 Mistral Small 4 none Mistral 6.5 5.2 1/2 380ms
#82 Grok 4.20 none X AI 4.8 5.2 0/2 455ms
#90 Qwen3.5-9B none Qwen 6.5 4.8 1/2 514ms
#91 Mercury 2 none Inception 6.5 4.8 1/2 551ms
#70 Qwen3.5-122B-A10B none Qwen 4.5 5.7 0/2 585ms
#62 Gemini 2.5 Flash none Google 8.0 6.2 1/2 672ms
#79 Grok 4.20 Beta none X AI 4.8 5.3 0/2 687ms
#86 GPT-5.4 Mini none OpenAI 6.3 5.1 1/2 728ms
#96 GPT-5.4 Nano none OpenAI 5.0 4.5 0/2 787ms
#63 Qwen3.5-35B-A3B none Qwen 6.3 6.1 1/2 809ms
#67 Qwen3.5-27B none Qwen 4.8 5.9 0/2 815ms
#94 MiMo-V2-Flash none Xiaomi 6.5 4.5 1/2 857ms
#74 GLM 4.7 Flash none Z.ai 6.5 5.6 1/2 888ms
#95 Grok 4.1 Fast none X AI 3.0 4.5 0/2 923ms
#81 Elephant medium Openrouter 9.8 5.2 2/2 987ms

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल