AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY زمرہ ناکامیاں

ہدایات کی پیروی: ہدایات پر عمل نہیں کیا

ہدایات کی پیروی
ہدایات پر عمل نہیں کیا

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

15

کل ناکامیاں

22

سب سے زیادہ متاثر ماڈل

Gemini 3.1 Flash Lite Preview 1
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#11 Gemini 3.1 Flash Lite Preview high Google 1 7.9 1/2 70.1s
#45 GPT-5 Mini medium OpenAI 1 8.0 1/2 15.7s
#80 MiniMax M2.7 medium Minimax 1 3.7 0/2 12.6s
#57 GPT-5 Nano medium OpenAI 1 8.5 1/2 11.9s
#51 Nemotron 3 Super medium NVIDIA 1 7.2 1/2 7.72s
#92 Qwen3 Coder Next medium Qwen 1 4.8 0/2 7.34s
#52 Grok 4.1 Fast medium X AI 1 6.6 1/2 5.30s
#84 gpt-oss-120b none OpenAI 1 8.4 1/2 5.10s
#30 Step 3.5 Flash medium Stepfun 1 8.5 1/2 4.98s
#25 Grok 4.20 Beta medium X AI 1 8.3 1/2 4.97s
#35 MiMo-V2-Omni medium Xiaomi 1 8.3 1/2 4.92s
#71 MiniMax M2.5 medium Minimax 1 8.1 1/2 4.64s
#56 Grok 4.20 Multi Agent Beta medium X AI 1 8.3 1/2 4.63s
#44 GPT-5.4 Mini medium OpenAI 1 7.4 1/2 2.50s
#75 GLM 5.1 none Z.ai 1 8.3 1/2 1.58s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز