AI BENCHY زمرہ ناکامیاں
مشترکہ: غلط جواب
مشترکہ
غلط جواب
دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 4.7 | 0/1 | 64.7s |
| #117 | Qwen3.5-35B-A3B none | Qwen | 1 | 3.0 | 0/1 | 47.4s |
| #131 | Qwen3.5-122B-A10B none | Qwen | 1 | 3.0 | 0/1 | 46.0s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 3.0 | 0/1 | 45.1s |
| #156 | Hy3 preview none | Tencent | 1 | 3.0 | 0/1 | 35.8s |
| #102 | Gemma 4 26B A4B none | 1 | 3.0 | 0/1 | 30.5s | |
| #132 | Mistral Small 4 medium | Mistral | 1 | 3.0 | 0/1 | 25.3s |
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 3.0 | 0/1 | 23.5s |
| #121 | Owl Alpha none | Openrouter | 1 | 3.0 | 0/1 | 21.7s |
| #74 | Qwen3.6 Max Preview none | Qwen | 1 | 3.0 | 0/1 | 20.5s |
| #135 | Kimi K2.5 none | Moonshot AI | 1 | 2.8 | 0/1 | 19.2s |
| #141 | Nemotron 3 Super none | NVIDIA | 1 | 3.0 | 0/1 | 16.4s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 3.0 | 0/1 | 15.9s |
| #116 | Hunter Alpha none | OpenRouter | 1 | 3.0 | 0/1 | 15.2s |
| #114 | Qwen3.5 Plus 2026-04-20 none | Qwen | 1 | 2.8 | 0/1 | 13.3s |