AI BENCHY زمرہ ناکامیاں
مشترکہ: غلط جواب
مشترکہ
غلط جواب
دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #150 | Qwen3 Coder Next medium | Qwen | 1 | 3.0 | 0/1 | 4.28s |
| #151 | Trinity Large Preview none | Arcee AI | 1 | 3.0 | 0/1 | 8.91s |
| #152 | MiMo-V2-Flash none | Xiaomi | 1 | 3.0 | 0/1 | 2.87s |
| #155 | Mercury 2 none | Inception | 1 | 3.0 | 0/1 | 606ms |
| #156 | Hy3 preview none | Tencent | 1 | 3.0 | 0/1 | 35.8s |
| #157 | Grok 4.1 Fast none | X AI | 1 | 3.0 | 0/1 | 3.33s |
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 3.0 | 0/1 | 23.5s |