AI BENCHY زمرہ ناکامیاں
کوڈنگ: غلط جواب
کوڈنگ
غلط جواب
دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #50 | Gemini 3.1 Flash Lite low | 1 | 6.8 | 1/2 | 1.71s | |
| #52 | GPT-5.3 Chat none | OpenAI | 1 | 6.9 | 1/2 | 10.5s |
| #53 | MiMo-V2.5 medium | Xiaomi | 1 | 6.9 | 1/2 | 64.5s |
| #55 | DeepSeek V4 Flash high | DeepSeek | 1 | 6.8 | 1/2 | 58.1s |
| #56 | Qwen3.5-Flash medium | Qwen | 1 | 4.1 | 0/2 | 54.2s |
| #60 | GLM 5V Turbo medium | Z.ai | 1 | 6.8 | 1/2 | 54.8s |
| #64 | GPT-5.4 Nano medium | OpenAI | 1 | 6.8 | 1/2 | 21.1s |
| #65 | GPT-5.4 Mini medium | OpenAI | 1 | 7.5 | 1/2 | 73.3s |
| #67 | MiMo-V2-Flash medium | Xiaomi | 1 | 4.1 | 0/2 | 7.20s |
| #68 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 6.8 | 1/2 | 220.5s |
| #71 | DeepSeek V3.2 medium | DeepSeek | 1 | 3.9 | 0/2 | 185.0s |
| #72 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.4 | 0/2 | 183.9s |
| #76 | Gemma 4 31B none | 1 | 6.8 | 1/2 | 14.8s | |
| #78 | Gemini 3.1 Flash Lite minimal | 1 | 6.8 | 1/2 | 951ms | |
| #84 | Laguna Xs.2 medium | Poolside | 1 | 6.3 | 0/1 | 14.4s |