AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Kimi K2.5 10.0
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#29 Gemini 3.1 Flash Lite Preview none Google 10.0 7.9 2/2 1.13s
#78 Trinity Large Preview none Arcee AI 4.1 5.3 0/2 1.09s
#98 LFM2-24B-A2B none Liquid 4.8 4.1 0/2 1.09s
#60 Gemma 4 26B A4B none Google 4.4 6.2 0/2 1.08s
#66 GPT-5.4 none OpenAI 6.5 5.9 1/2 1.07s
#54 Mercury 2 medium Inception 10.0 6.5 2/2 1.07s
#61 Seed-2.0-Lite none Bytedance Seed 10.0 6.2 2/2 1.06s
#85 Elephant none Openrouter 9.8 5.2 2/2 1.03s
#81 Elephant medium Openrouter 9.8 5.2 2/2 987ms
#95 Grok 4.1 Fast none X AI 3.0 4.5 0/2 923ms
#74 GLM 4.7 Flash none Z.ai 6.5 5.6 1/2 888ms
#94 MiMo-V2-Flash none Xiaomi 6.5 4.5 1/2 857ms
#67 Qwen3.5-27B none Qwen 4.8 5.9 0/2 815ms
#63 Qwen3.5-35B-A3B none Qwen 6.3 6.1 1/2 809ms
#96 GPT-5.4 Nano none OpenAI 5.0 4.5 0/2 787ms

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल