AI BENCHY زمرہ ناکامیاں
معلومات عامہ: کوئی جواب نہیں
معلومات عامہ
کوئی جواب نہیں
دیکھیں کہ معلومات عامہ میں کن AI ماڈلز کو کوئی جواب نہیں پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | کوئی جواب نہیں کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #10 | Claude Opus 4.8 medium | Anthropic | 1 | 3.0 | 0/1 | 6.14s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 3.0 | 0/1 | 114.0s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 3.0 | 0/1 | 124.8s |
| #67 | MiniMax M3 medium | Minimax | 1 | 3.0 | 0/1 | 100.8s |
| #68 | Claude Opus 4.8 none | Anthropic | 1 | 3.0 | 0/1 | 3.41s |
| #71 | Step 3.7 Flash high | Stepfun | 1 | 3.0 | 0/1 | 149.3s |