AI BENCHY विफलताएँ
गलत उत्तर विफलताएँ
देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #66 | Laguna M.1 medium | Poolside | 4 | 7.3 | 13/19 | 14.7s |
| #75 | Seed-2.0-Mini medium | Bytedance Seed | 4 | 7.1 | 11/20 | 80.2s |
| #78 | Claude Sonnet 4.6 none | Anthropic | 4 | 7.0 | 11/20 | 5.27s |
| #82 | Hunter Alpha medium | OpenRouter | 4 | 6.7 | 8/18 | 10.3s |
| #89 | Grok 4.20 Multi Agent Beta medium | X AI | 4 | 6.6 | 8/18 | 9.69s |
| #93 | Grok 4.1 Fast medium | X AI | 4 | 6.5 | 9/19 | 23.8s |
| #5 | Qwen3.7 Max medium | Qwen | 3 | 9.0 | 17/20 | 13.8s |
| #8 | GPT-5.5 low | OpenAI | 3 | 8.9 | 17/20 | 9.43s |
| #9 | Gemini 3.5 Flash none | 3 | 8.9 | 17/20 | 9.05s | |
| #10 | Claude Opus 4.7 none | Anthropic | 3 | 8.9 | 16/19 | 3.02s |
| #12 | Claude Opus 4.8 medium | Anthropic | 3 | 8.7 | 16/20 | 9.34s |
| #15 | Grok 4.20 Beta medium | X AI | 3 | 8.5 | 14/18 | 9.75s |
| #18 | Hy3 preview high | Tencent | 3 | 8.3 | 16/20 | 56.6s |
| #19 | Qwen3.6 Plus Preview medium | Qwen | 3 | 8.2 | 16/19 | 15.2s |
| #20 | GLM 5 medium | Z.ai | 3 | 8.2 | 14/20 | 32.7s |