AI BENCHY زمرہ ناکامیاں
کوڈنگ: غلط جواب
کوڈنگ
غلط جواب
دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.
ناکامی کی وجوہات
| درجہ | ماڈل | کمپنی | غلط جواب کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #32 | MiMo-V2-Omni medium | Xiaomi | 1 | 4.0 | 0/1 | 68.5s |
| #54 | GPT-5 Nano medium | OpenAI | 1 | 6.7 | 0/1 | 40.7s |
| #74 | Trinity Large Preview none | Arcee AI | 1 | 6.3 | 0/1 | 39.5s |
| #69 | Mistral Small 4 medium | Mistral | 1 | 6.7 | 0/1 | 30.5s |
| #65 | gpt-oss-120b medium | OpenAI | 1 | 4.3 | 0/1 | 26.3s |
| #44 | Grok 4.20 medium | X AI | 1 | 4.3 | 0/1 | 24.3s |
| #71 | GLM 5.1 none | Z.ai | 1 | 5.1 | 0/1 | 9.79s |
| #79 | gpt-oss-120b none | OpenAI | 1 | 4.3 | 0/1 | 9.57s |
| #50 | GLM 5 none | Z.ai | 1 | 5.6 | 0/1 | 8.84s |
| #61 | DeepSeek V3.2 none | DeepSeek | 1 | 2.4 | 0/1 | 7.63s |
| #84 | Qwen3.5-9B none | Qwen | 1 | 5.2 | 0/1 | 5.69s |
| #70 | GLM 4.7 Flash none | Z.ai | 1 | 6.4 | 0/1 | 5.57s |
| #73 | GLM 5 Turbo none | Z.ai | 1 | 5.3 | 0/1 | 3.93s |
| #46 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 6.3 | 0/1 | 3.63s |
| #66 | Qwen3.5-122B-A10B none | Qwen | 1 | 4.3 | 0/1 | 3.44s |