AI BENCHY विफलताएँ
कोई उत्तर नहीं विफलताएँ
देखें कि किन AI मॉडलों में कोई उत्तर नहीं सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | कोई उत्तर नहीं संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #55 | GLM 5.1 medium | Z.ai | 1 | 7.3 | 12/21 | 33.7s |
| #17 | GLM 5 medium | Z.ai | 1 | 8.3 | 15/21 | 33.5s |
| #105 | Nemotron 3 Super medium | NVIDIA | 1 | 5.8 | 8/21 | 32.0s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 7.3 | 12/21 | 27.1s |
| #86 | Grok 4.1 Fast medium | X AI | 1 | 6.5 | 9/19 | 23.8s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 8.0 | 14/21 | 23.0s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 8.0 | 14/21 | 20.4s |
| #46 | Qwen3.6 35B A3B medium | Qwen | 1 | 7.4 | 13/21 | 18.1s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 4.6 | 4/19 | 17.1s |
| #42 | GPT-5.2 medium | OpenAI | 1 | 7.5 | 13/21 | 16.9s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 7.3 | 12/21 | 15.7s |
| #92 | Laguna M.1 medium | Poolside | 1 | 6.4 | 9/19 | 14.7s |
| #10 | Claude Opus 4.8 medium | Anthropic | 1 | 8.7 | 17/21 | 9.66s |
| #107 | Laguna Xs.2 medium | Poolside | 2 | 5.8 | 6/19 | 6.73s |
| #68 | Claude Opus 4.8 none | Anthropic | 1 | 7.0 | 12/21 | 3.47s |