AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

Samanya Buddhimatta: गलत उत्तर

Samanya Buddhimatta
गलत उत्तर

देखें कि Samanya Buddhimatta में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

10

कुल विफलताएँ

10

सबसे अधिक प्रभावित मॉडल

GLM 4.7 Flash 1
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#93 GLM 4.7 Flash medium Z.ai 1 3.6 0/1 18.1s
#18 GLM 5 Turbo medium Z.ai 1 6.1 0/1 10.1s
#49 Qwen3.5 Plus 2026-02-15 none Qwen 1 4.4 0/1 2.26s
#66 GPT-5.4 none OpenAI 1 4.4 0/1 1.78s
#74 GLM 4.7 Flash none Z.ai 1 4.0 0/1 1.59s
#89 GPT-4o-mini none OpenAI 1 4.0 0/1 909ms
#75 GLM 5.1 none Z.ai 1 5.0 0/1 790ms
#83 Mistral Small 4 none Mistral 1 4.0 0/1 729ms
#82 Grok 4.20 none X AI 1 4.8 0/1 659ms
#62 Gemini 2.5 Flash none Google 1 5.0 0/1 615ms

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल