AI BENCHY زمرہ ناکامیاں
کوڈنگ: غلط جواب
کوڈنگ
غلط جواب
دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #85 | Gemini 3.1 Flash Lite none | 1 | 6.8 | 1/2 | 1.13s | |
| #86 | GPT-5.5 none | OpenAI | 1 | 6.8 | 1/2 | 1.52s |
| #90 | Mercury 2 medium | Inception | 1 | 7.2 | 1/2 | 2.29s |
| #91 | Gemma 4 26B A4B none | 1 | 4.1 | 0/2 | 3.83s | |
| #92 | Gemini 2.5 Flash none | 1 | 6.8 | 1/2 | 810ms | |
| #93 | MiMo-V2-Omni none | Xiaomi | 1 | 5.1 | 0/2 | 2.75s |
| #97 | Qwen3.5-Flash none | Qwen | 1 | 6.8 | 1/2 | 993ms |
| #98 | GLM 5V Turbo none | Z.ai | 1 | 6.8 | 1/2 | 3.77s |
| #99 | Seed-2.0-Lite none | Bytedance Seed | 1 | 6.8 | 1/2 | 2.95s |
| #101 | Qwen3.5 Plus 2026-04-20 none | Qwen | 1 | 4.4 | 0/2 | 2.08s |
| #102 | Qwen3.5-35B-A3B none | Qwen | 1 | 6.8 | 1/2 | 1.72s |
| #103 | Qwen3.5-27B none | Qwen | 1 | 7.3 | 1/2 | 1.98s |
| #104 | Qwen3.6 27B none | Qwen | 1 | 6.8 | 1/2 | 5.75s |
| #105 | Cobuddy medium | Baidu | 1 | 4.1 | 0/2 | 79.2s |
| #107 | MiMo-V2-Pro none | Xiaomi | 1 | 6.8 | 1/2 | 2.65s |