AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#71 Step 3.7 Flash high Stepfun 9.8 7.0 2/2 1.52s
#74 Qwen3.6 Max Preview none Qwen 9.8 6.9 2/2 1.40s
#75 Ring-2.6-1T medium Inclusionai 9.8 6.9 2/2 11.8s
#84 Grok 4.20 Multi Agent Beta medium X AI 9.8 6.6 2/2 3.52s
#94 GPT-5 Nano medium OpenAI 9.8 6.3 2/2 15.6s
#96 Ring-2.6-1T none Inclusionai 9.8 6.2 2/2 27.4s
#100 Grok Build 0.1 none X AI 9.8 6.0 2/2 7.36s
#112 GLM 5.1 none Z.ai 9.8 5.7 2/2 1.98s
#126 gpt-oss-120b none OpenAI 9.8 5.4 2/2 5.06s
#62 Step 3.5 Flash medium Stepfun 8.3 7.2 1/2 4.78s
#80 Mimo V2 Omni medium Xiaomi 8.3 6.7 1/2 4.99s
#129 MiniMax M2.5 medium Minimax 7.5 5.3 1/2 621ms
#53 Gemini 3.1 Flash Lite high Google 7.3 7.3 1/2 23.3s
#132 Mistral Small 4 medium Mistral 7.3 5.3 1/2 1.38s
#105 Nemotron 3 Super medium NVIDIA 7.3 5.8 1/2 6.97s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल