AI BENCHY
Your ad here

AI BENCHY श्रेणी अपयशे

संयुक्त: चुकीचे उत्तर

संयुक्त
चुकीचे उत्तर

संयुक्त मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

7

एकूण अपयशे

37

सर्वाधिक प्रभावित मॉडेल

Gemini 3 Flash Preview 1
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#88 Nemotron 3 Super none NVIDIA 1 3.0 0/1 20.0s
#89 GPT-4o-mini none OpenAI 1 3.0 0/1 7.58s
#91 Mercury 2 none Inception 1 3.0 0/1 606ms
#92 Qwen3 Coder Next medium Qwen 1 3.0 0/1 4.28s
#94 MiMo-V2-Flash none Xiaomi 1 3.0 0/1 2.87s
#95 Grok 4.1 Fast none X AI 1 3.0 0/1 3.33s
#96 GPT-5.4 Nano none OpenAI 1 3.0 0/1 3.84s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स