AI BENCHY श्रेणी विफलताएँ
पहेली समाधान: गलत उत्तर
पहेली समाधान
गलत उत्तर
देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।
विफलता के कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #79 | Hunter Alpha medium | OpenRouter | 1 | 6.1 | 1/3 | 5.35s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 5.9 | 1/3 | 2.38s |
| #81 | Mercury 2 medium | Inception | 1 | 5.4 | 1/3 | 949ms |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 6.7 | 1/3 | 5.19s |
| #85 | Gemma 4 31B none | 1 | 6.5 | 1/3 | 4.23s | |
| #86 | Grok 4.1 Fast medium | X AI | 1 | 5.3 | 1/3 | 7.40s |
| #88 | Qwen3.7 Plus none | Qwen | 1 | 7.7 | 2/3 | 1.71s |
| #89 | Hy3 preview low | Tencent | 1 | 5.3 | 1/3 | 7.51s |
| #90 | Gemini 3.1 Flash Lite none | 1 | 6.3 | 1/3 | 720ms | |
| #91 | GPT-5.5 none | OpenAI | 1 | 7.7 | 2/3 | 1.29s |
| #92 | Laguna M.1 medium | Poolside | 1 | 5.3 | 1/3 | 10.2s |
| #94 | GPT-5 Nano medium | OpenAI | 1 | 5.3 | 1/3 | 20.6s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 7.7 | 2/3 | 2.71s |
| #97 | Gemini 2.5 Flash none | 1 | 7.7 | 2/3 | 604ms | |
| #98 | GLM 5 none | Z.ai | 1 | 7.7 | 2/3 | 1.91s |