AI BENCHY
Advertise here

AI BENCHY श्रेणी अपयशे

सामान्य ज्ञान: चुकीचे उत्तर

सामान्य ज्ञान
चुकीचे उत्तर

सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

117

सर्वाधिक प्रभावित मॉडेल

Claude Opus 4.7 1

अयशस्वी होण्याची कारणे

क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#90 Qwen3.5 Plus 2026-04-20 none Qwen 1 3.0 0/1 33.3s
#91 Qwen3.5-35B-A3B none Qwen 1 3.0 0/1 493ms
#92 MiMo-V2-Pro none Xiaomi 1 3.0 0/1 1.63s
#93 Qwen3.5-27B none Qwen 1 3.0 0/1 599ms
#94 Qwen3.6 27B none Qwen 1 3.0 0/1 4.03s
#95 Cobuddy medium Baidu 1 3.0 0/1 37.0s
#96 Owl Alpha none Openrouter 1 3.0 0/1 2.50s
#97 GLM 4.7 Flash none Z.ai 1 3.0 0/1 692ms
#98 GPT-5.4 none OpenAI 1 3.0 0/1 990ms
#99 gpt-oss-120b medium OpenAI 1 3.0 0/1 26.5s
#100 Kimi K2.6 none Moonshot AI 1 3.0 0/1 1.36s
#101 GLM 5.1 none Z.ai 1 3.0 0/1 2.34s
#102 MiMo-V2.5-Pro none Xiaomi 1 3.0 0/1 1.89s
#104 DeepSeek V3.2 none DeepSeek 1 3.0 0/1 17.2s
#105 Qwen3.6 Flash none Qwen 1 3.0 0/1 649ms

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स