AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

डोमेन-विशिष्ट: गलत उत्तर

डोमेन-विशिष्ट
गलत उत्तर

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

15

कुल विफलताएँ

182

सबसे अधिक प्रभावित मॉडल

Qwen3.6 Plus Preview 3
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#9 Qwen3.6 Plus Preview medium Qwen 3 3.0 0/3 22.1s
#17 Gemini 3.1 Flash Lite Preview medium Google 3 3.0 0/3 4.21s
#19 Qwen3.5-122B-A10B medium Qwen 3 2.9 0/3 63.4s
#20 Qwen3.6 Plus medium Qwen 3 2.9 0/3 29.6s
#36 GPT-5.3 Chat none OpenAI 3 3.5 0/3 13.0s
#44 GPT-5.4 Mini medium OpenAI 3 4.1 0/3 65.3s
#53 GLM 5 none Z.ai 3 3.0 0/3 2.24s
#54 Mercury 2 medium Inception 3 2.9 0/3 6.48s
#60 Gemma 4 26B A4B none Google 3 3.6 0/3 2.49s
#61 Seed-2.0-Lite none Bytedance Seed 3 3.6 0/3 1.33s
#64 DeepSeek V3.2 none DeepSeek 3 3.6 0/3 1.61s
#67 Qwen3.5-27B none Qwen 3 3.0 0/3 540ms
#68 gpt-oss-120b medium OpenAI 3 2.9 0/3 50.9s
#75 GLM 5.1 none Z.ai 3 2.9 0/3 1.99s
#79 Grok 4.20 Beta none X AI 3 3.0 0/3 611ms

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल