AI BENCHY زمرہ ناکامیاں
مشترکہ: غلط جواب
مشترکہ
غلط جواب
دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 3.0 | 0/1 | 5.96s |
| #102 | Gemma 4 26B A4B none | 1 | 3.0 | 0/1 | 30.5s | |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 3.0 | 0/1 | 4.79s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 3.0 | 0/1 | 15.9s |
| #108 | Qwen3.5-Flash none | Qwen | 1 | 3.0 | 0/1 | 6.22s |
| #109 | GLM 5V Turbo none | Z.ai | 1 | 3.0 | 0/1 | 6.51s |
| #110 | Seed-2.0-Lite none | Bytedance Seed | 1 | 3.0 | 0/1 | 6.59s |
| #111 | Owl Alpha medium | Openrouter | 1 | 3.0 | 0/1 | 10.0s |
| #114 | Qwen3.5 Plus 2026-04-20 none | Qwen | 1 | 2.8 | 0/1 | 13.3s |
| #115 | Qwen3.5-27B none | Qwen | 1 | 2.8 | 0/1 | 9.39s |
| #116 | Hunter Alpha none | OpenRouter | 1 | 3.0 | 0/1 | 15.2s |
| #117 | Qwen3.5-35B-A3B none | Qwen | 1 | 3.0 | 0/1 | 47.4s |
| #120 | Mimo V2 PRO none | Xiaomi | 1 | 3.0 | 0/1 | 6.58s |
| #121 | Owl Alpha none | Openrouter | 1 | 3.0 | 0/1 | 21.7s |
| #124 | Kimi K2.6 none | Moonshot AI | 1 | 3.0 | 0/1 | 3.38s |