AI BENCHY विफलताएँ
कोई उत्तर नहीं विफलताएँ
देखें कि किन AI मॉडलों में कोई उत्तर नहीं सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | कोई उत्तर नहीं संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #68 | Claude Opus 4.8 none | Anthropic | 1 | 7.0 | 12/21 | 3.47s |
| #107 | Laguna Xs.2 medium | Poolside | 2 | 5.8 | 6/19 | 6.73s |
| #10 | Claude Opus 4.8 medium | Anthropic | 1 | 8.7 | 17/21 | 9.66s |
| #92 | Laguna M.1 medium | Poolside | 1 | 6.4 | 9/19 | 14.7s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 7.3 | 12/21 | 15.7s |
| #42 | GPT-5.2 medium | OpenAI | 1 | 7.5 | 13/21 | 16.9s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 4.6 | 4/19 | 17.1s |
| #46 | Qwen3.6 35B A3B medium | Qwen | 1 | 7.4 | 13/21 | 18.1s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 8.0 | 14/21 | 20.4s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 8.0 | 14/21 | 23.0s |
| #86 | Grok 4.1 Fast medium | X AI | 1 | 6.5 | 9/19 | 23.8s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 7.3 | 12/21 | 27.1s |
| #105 | Nemotron 3 Super medium | NVIDIA | 1 | 5.8 | 8/21 | 32.0s |
| #17 | GLM 5 medium | Z.ai | 1 | 8.3 | 15/21 | 33.5s |
| #55 | GLM 5.1 medium | Z.ai | 1 | 7.3 | 12/21 | 33.7s |