AI BENCHY श्रेणी विफलताएँ
कोडिंग: कोई उत्तर नहीं
कोडिंग
कोई उत्तर नहीं
देखें कि कोडिंग में किन AI मॉडलों में कोई उत्तर नहीं आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.
विफलता के कारण
| रैंक | मॉडल | कंपनी | कोई उत्तर नहीं संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #28 | GLM 5 Turbo medium | Z.ai | 1 | 7.3 | 1/2 | 53.9s |
| #30 | Qwen3.6 35B A3B medium | Qwen | 1 | 6.6 | 1/2 | 59.3s |
| #54 | Kimi K2.6 medium | Moonshot AI | 1 | 6.5 | 1/2 | 118.2s |
| #70 | Qwen3.5-35B-A3B medium | Qwen | 1 | 6.5 | 1/2 | 244.5s |
| #83 | Qwen3.6 27B medium | Qwen | 1 | 6.6 | 1/2 | 165.4s |
| #133 | MiniMax M2.7 medium | Minimax | 1 | 6.7 | 1/2 | 54.7s |
| #19 | Gemini 3 PRO Preview medium | 1 | 3.0 | 0/2 | 0ms | |
| #23 | Gemma 4 31B medium | 1 | 3.8 | 0/2 | 110.9s | |
| #47 | Gemma 4 26B A4B medium | 1 | 2.9 | 0/2 | 258.4s | |
| #51 | GLM 5.1 medium | Z.ai | 1 | 4.7 | 0/2 | 145.6s |
| #58 | Step 3.5 Flash medium | Stepfun | 1 | 3.0 | 0/1 | 62.8s |
| #72 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.4 | 0/2 | 183.9s |
| #79 | Kimi K2.5 medium | Moonshot AI | 1 | 4.1 | 0/2 | 215.9s |
| #80 | DeepSeek V4 Pro high | DeepSeek | 1 | 2.8 | 0/2 | 51.8s |
| #122 | Elephant Alpha medium | Openrouter | 1 | 4.0 | 0/2 | 1.30s |