AI BENCHY श्रेणी विफलताएँ
Samanya Buddhimatta: गलत उत्तर
Samanya Buddhimatta
गलत उत्तर
देखें कि Samanya Buddhimatta में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
विफलता के कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #36 | Qwen3.5 Plus 2026-04-20 medium | Qwen | 1 | 4.9 | 0/1 | 25.3s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 4.2 | 0/1 | 23.7s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 4.4 | 0/1 | 18.4s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 3.6 | 0/1 | 18.1s |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 4.3 | 0/1 | 15.6s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 5.0 | 0/1 | 13.5s |
| #100 | Grok Build 0.1 none | X AI | 1 | 4.3 | 0/1 | 12.5s |
| #126 | gpt-oss-120b none | OpenAI | 1 | 4.8 | 0/1 | 10.8s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 6.1 | 0/1 | 10.1s |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 4.8 | 0/1 | 9.88s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 3.4 | 0/1 | 7.00s |
| #143 | MiMo-V2.5 none | Xiaomi | 1 | 4.4 | 0/1 | 6.86s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 4.0 | 0/1 | 6.85s |
| #71 | Step 3.7 Flash high | Stepfun | 1 | 5.5 | 0/1 | 4.17s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 5.4 | 0/1 | 3.61s |