AI BENCHY श्रेणी विफलताएँ
Samanya Buddhimatta: गलत उत्तर
Samanya Buddhimatta
गलत उत्तर
देखें कि Samanya Buddhimatta में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.
विफलता के कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #18 | GLM 5 Turbo medium | Z.ai | 1 | 6.1 | 0/1 | 10.1s |
| #49 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 4.4 | 0/1 | 2.26s |
| #62 | Gemini 2.5 Flash none | 1 | 5.0 | 0/1 | 615ms | |
| #66 | GPT-5.4 none | OpenAI | 1 | 4.4 | 0/1 | 1.78s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 4.0 | 0/1 | 1.59s |
| #75 | GLM 5.1 none | Z.ai | 1 | 5.0 | 0/1 | 790ms |
| #82 | Grok 4.20 none | X AI | 1 | 4.8 | 0/1 | 659ms |
| #83 | Mistral Small 4 none | Mistral | 1 | 4.0 | 0/1 | 729ms |
| #89 | GPT-4o-mini none | OpenAI | 1 | 4.0 | 0/1 | 909ms |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 3.6 | 0/1 | 18.1s |