AI BENCHY زمرہ ناکامیاں
مشترکہ: غلط جواب
مشترکہ
غلط جواب
دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #5 | Gemini 3 Flash Preview low | 1 | 3.0 | 0/1 | 3.27s | |
| #12 | Gemini 3 PRO Preview medium | 1 | 3.0 | 0/1 | 10.4s | |
| #21 | Gemini 3 Flash Preview none | 1 | 4.7 | 0/1 | 3.56s | |
| #22 | Gemini 3.1 Flash Lite Preview low | 1 | 3.0 | 0/1 | 11.9s | |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 4.7 | 0/1 | 64.7s |
| #29 | Gemini 3.1 Flash Lite Preview none | 1 | 3.0 | 0/1 | 3.20s | |
| #49 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 3.0 | 0/1 | 6.65s |
| #53 | GLM 5 none | Z.ai | 1 | 3.0 | 0/1 | 4.98s |
| #55 | MiMo-V2-Omni none | Xiaomi | 1 | 3.0 | 0/1 | 2.47s |
| #58 | GLM 5V Turbo none | Z.ai | 1 | 3.0 | 0/1 | 6.51s |
| #59 | Qwen3.5-Flash none | Qwen | 1 | 3.0 | 0/1 | 6.22s |
| #60 | Gemma 4 26B A4B none | 1 | 3.0 | 0/1 | 30.5s | |
| #61 | Seed-2.0-Lite none | Bytedance Seed | 1 | 3.0 | 0/1 | 6.59s |
| #62 | Gemini 2.5 Flash none | 1 | 3.0 | 0/1 | 4.39s | |
| #63 | Qwen3.5-35B-A3B none | Qwen | 1 | 3.0 | 0/1 | 47.4s |