AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY زمرہ ناکامیاں

ٹول کالنگ: ہدایات پر عمل نہیں کیا

ٹول کالنگ
ہدایات پر عمل نہیں کیا

دیکھیں کہ ٹول کالنگ میں کن AI ماڈلز کو ہدایات پر عمل نہیں کیا پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

6

کل ناکامیاں

6

سب سے زیادہ متاثر ماڈل

GPT-5.4 Mini 1
درجہ ماڈل کمپنی ہدایات پر عمل نہیں کیا کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#86 GPT-5.4 Mini none OpenAI 1 3.0 0/1 2.32s
#44 GPT-5.4 Mini medium OpenAI 1 4.7 0/1 9.62s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 12.0s
#25 Grok 4.20 Beta medium X AI 1 3.0 0/1 12.4s
#47 Grok 4.20 medium X AI 1 3.0 0/1 13.7s
#88 Nemotron 3 Super none NVIDIA 1 4.7 0/1 16.0s

ہدایات پر عمل نہیں کیا کی تعداد کے لحاظ سے سرفہرست ماڈلز

ہدایات پر عمل نہیں کیا کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز