AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY زمرہ ناکامیاں

معلومات عامہ: کوئی جواب نہیں

معلومات عامہ
کوئی جواب نہیں

دیکھیں کہ معلومات عامہ میں کن AI ماڈلز کو کوئی جواب نہیں پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

6

کل ناکامیاں

6

سب سے زیادہ متاثر ماڈل

Step 3.7 Flash 1
درجہ ماڈل کمپنی کوئی جواب نہیں کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#71 Step 3.7 Flash high Stepfun 1 3.0 0/1 149.3s
#57 Step 3.7 Flash low Stepfun 1 3.0 0/1 124.8s
#22 Step 3.7 Flash medium Stepfun 1 3.0 0/1 114.0s
#67 MiniMax M3 medium Minimax 1 3.0 0/1 100.8s
#10 Claude Opus 4.8 medium Anthropic 1 3.0 0/1 6.14s
#68 Claude Opus 4.8 none Anthropic 1 3.0 0/1 3.41s

کوئی جواب نہیں کی تعداد کے لحاظ سے سرفہرست ماڈلز

کوئی جواب نہیں کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز