AI BENCHY
Advertise here

AI BENCHY श्रेणी विफलताएँ

सामान्य ज्ञान: गलत उत्तर

सामान्य ज्ञान
गलत उत्तर

देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

12

कुल विफलताएँ

117

सबसे अधिक प्रभावित मॉडल

Claude Opus 4.7 1

विफलता के कारण

रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#128 MiMo-V2.5 none Xiaomi 1 3.0 0/1 3.89s
#129 Qwen3 Coder Next medium Qwen 1 3.0 0/1 399ms
#130 Trinity Large Preview none Arcee AI 1 3.0 0/1 777ms
#131 Mercury 2 none Inception 1 3.0 0/1 548ms
#132 Qwen3.5-9B none Qwen 1 3.0 0/1 2.32s
#133 HY3 Preview none Tencent 1 3.0 0/1 2.71s
#135 GPT-5.4 Nano none OpenAI 1 3.0 0/1 773ms
#136 GLM 4.7 Flash medium Z.ai 1 3.0 0/1 11.1s
#137 MiMo-V2-Flash none Xiaomi 1 3.0 0/1 1.82s
#139 Grok 4.1 Fast none X AI 1 3.0 0/1 731ms
#140 Qwen3.5-9B medium Qwen 1 3.0 0/1 177.0s
#142 Granite 4.1 8B none IBM Granite 1 3.0 0/1 306ms

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल