AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

Samanya Buddhimatta: गलत उत्तर

Samanya Buddhimatta
गलत उत्तर

देखें कि Samanya Buddhimatta में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

10

कुल विफलताएँ

10

सबसे अधिक प्रभावित मॉडल

Gemini 2.5 Flash 1
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#62 Gemini 2.5 Flash none Google 1 5.0 0/1 615ms
#82 Grok 4.20 none X AI 1 4.8 0/1 659ms
#83 Mistral Small 4 none Mistral 1 4.0 0/1 729ms
#75 GLM 5.1 none Z.ai 1 5.0 0/1 790ms
#89 GPT-4o-mini none OpenAI 1 4.0 0/1 909ms
#74 GLM 4.7 Flash none Z.ai 1 4.0 0/1 1.59s
#66 GPT-5.4 none OpenAI 1 4.4 0/1 1.78s
#49 Qwen3.5 Plus 2026-02-15 none Qwen 1 4.4 0/1 2.26s
#18 GLM 5 Turbo medium Z.ai 1 6.1 0/1 10.1s
#93 GLM 4.7 Flash medium Z.ai 1 3.6 0/1 18.1s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल