AI BENCHY زمرہ ناکامیاں
کوڈنگ: غلط جواب
کوڈنگ
غلط جواب
دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #85 | Mercury 2 none | Inception | 1 | 3.6 | 0/1 | 969ms |
| #75 | Grok 4.20 Beta none | X AI | 1 | 5.5 | 0/1 | 1.14s |
| #77 | Grok 4.20 none | X AI | 1 | 3.4 | 0/1 | 1.22s |
| #78 | Mistral Small 4 none | Mistral | 1 | 4.5 | 0/1 | 1.28s |
| #90 | GPT-5.4 Nano none | OpenAI | 1 | 7.1 | 0/1 | 1.43s |
| #52 | MiMo-V2-Omni none | Xiaomi | 1 | 6.6 | 0/1 | 1.72s |
| #89 | Grok 4.1 Fast none | X AI | 1 | 5.3 | 0/1 | 1.79s |
| #83 | GPT-4o-mini none | OpenAI | 1 | 3.0 | 0/1 | 2.55s |
| #88 | MiMo-V2-Flash none | Xiaomi | 1 | 6.3 | 0/1 | 2.79s |
| #82 | Nemotron 3 Super none | NVIDIA | 1 | 3.3 | 0/1 | 2.99s |
| #81 | Qwen3 Coder Next none | Qwen | 1 | 7.3 | 0/1 | 3.14s |
| #66 | Qwen3.5-122B-A10B none | Qwen | 1 | 4.3 | 0/1 | 3.44s |
| #46 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 6.3 | 0/1 | 3.63s |
| #73 | GLM 5 Turbo none | Z.ai | 1 | 5.3 | 0/1 | 3.93s |
| #70 | GLM 4.7 Flash none | Z.ai | 1 | 6.4 | 0/1 | 5.57s |