AI BENCHY श्रेणी विफलताएँ
Samanya Buddhimatta: गलत उत्तर
Samanya Buddhimatta
गलत उत्तर
देखें कि Samanya Buddhimatta में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
विफलता के कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.0 | 0/1 | 499ms |
| #97 | Gemini 2.5 Flash none | 1 | 5.0 | 0/1 | 615ms | |
| #127 | Grok 4.20 none | X AI | 1 | 4.8 | 0/1 | 659ms |
| #142 | Mistral Small 4 none | Mistral | 1 | 4.0 | 0/1 | 729ms |
| #112 | GLM 5.1 none | Z.ai | 1 | 5.0 | 0/1 | 790ms |
| #147 | GPT-4o-mini none | OpenAI | 1 | 4.0 | 0/1 | 909ms |
| #141 | Nemotron 3 Super none | NVIDIA | 1 | 4.6 | 0/1 | 950ms |
| #90 | Gemini 3.1 Flash Lite none | 1 | 4.0 | 0/1 | 992ms | |
| #61 | Gemini 3.1 Flash Lite low | 1 | 4.0 | 0/1 | 1.37s | |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 4.0 | 0/1 | 1.45s |
| #122 | GLM 4.7 Flash none | Z.ai | 1 | 4.0 | 0/1 | 1.59s |
| #74 | Qwen3.6 Max Preview none | Qwen | 1 | 4.3 | 0/1 | 1.62s |
| #125 | GPT-5.4 none | OpenAI | 1 | 4.4 | 0/1 | 1.78s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 4.4 | 0/1 | 2.26s |
| #101 | Mimo V2 Omni none | Xiaomi | 1 | 4.1 | 0/1 | 2.33s |