AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY زمرہ ناکامیاں

ہدایات کی پیروی: ہدایات پر عمل نہیں کیا

ہدایات کی پیروی
ہدایات پر عمل نہیں کیا

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

15

کل ناکامیاں

22

سب سے زیادہ متاثر ماڈل

Gemini 3.1 Flash Lite Preview 1
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#11 Gemini 3.1 Flash Lite Preview high Google 1 7.9 1/2 70.1s
#25 Grok 4.20 Beta medium X AI 1 8.3 1/2 4.97s
#30 Step 3.5 Flash medium Stepfun 1 8.5 1/2 4.98s
#35 MiMo-V2-Omni medium Xiaomi 1 8.3 1/2 4.92s
#44 GPT-5.4 Mini medium OpenAI 1 7.4 1/2 2.50s
#45 GPT-5 Mini medium OpenAI 1 8.0 1/2 15.7s
#51 Nemotron 3 Super medium NVIDIA 1 7.2 1/2 7.72s
#52 Grok 4.1 Fast medium X AI 1 6.6 1/2 5.30s
#56 Grok 4.20 Multi Agent Beta medium X AI 1 8.3 1/2 4.63s
#57 GPT-5 Nano medium OpenAI 1 8.5 1/2 11.9s
#71 MiniMax M2.5 medium Minimax 1 8.1 1/2 4.64s
#75 GLM 5.1 none Z.ai 1 8.3 1/2 1.58s
#84 gpt-oss-120b none OpenAI 1 8.4 1/2 5.10s
#60 Gemma 4 26B A4B none Google 1 4.4 0/2 1.08s
#78 Trinity Large Preview none Arcee AI 1 4.1 0/2 1.09s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز