AI BENCHY श्रेणी विफलताएँ
कोडिंग: कोई उत्तर नहीं
कोडिंग
कोई उत्तर नहीं
देखें कि कोडिंग में किन AI मॉडलों में कोई उत्तर नहीं आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.
विफलता के कारण
| रैंक | मॉडल | कंपनी | कोई उत्तर नहीं संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #19 | Gemini 3 PRO Preview medium | 1 | 3.0 | 0/2 | 0ms | |
| #23 | Gemma 4 31B medium | 1 | 3.8 | 0/2 | 110.9s | |
| #47 | Gemma 4 26B A4B medium | 1 | 2.9 | 0/2 | 258.4s | |
| #51 | GLM 5.1 medium | Z.ai | 1 | 4.7 | 0/2 | 145.6s |
| #58 | Step 3.5 Flash medium | Stepfun | 1 | 3.0 | 0/1 | 62.8s |
| #72 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.4 | 0/2 | 183.9s |
| #79 | Kimi K2.5 medium | Moonshot AI | 1 | 4.1 | 0/2 | 215.9s |
| #80 | DeepSeek V4 Pro high | DeepSeek | 1 | 2.8 | 0/2 | 51.8s |
| #122 | Elephant Alpha medium | Openrouter | 1 | 4.0 | 0/2 | 1.30s |
| #130 | Elephant Alpha none | Openrouter | 1 | 4.7 | 0/2 | 1.39s |
| #148 | GLM 4.7 Flash medium | Z.ai | 1 | 3.4 | 0/2 | 55.3s |
| #151 | Qwen3.5-9B medium | Qwen | 1 | 2.8 | 0/2 | 135.6s |
| #28 | GLM 5 Turbo medium | Z.ai | 1 | 7.3 | 1/2 | 53.9s |
| #30 | Qwen3.6 35B A3B medium | Qwen | 1 | 6.6 | 1/2 | 59.3s |
| #54 | Kimi K2.6 medium | Moonshot AI | 1 | 6.5 | 1/2 | 118.2s |