AI BENCHY
Your ad here

AI BENCHY श्रेणी अपयशे

डोमेन-विशिष्ट: चुकीचे उत्तर

डोमेन-विशिष्ट
चुकीचे उत्तर

डोमेन-विशिष्ट मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

182

सर्वाधिक प्रभावित मॉडेल

Qwen3.6 Plus Preview 3
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#87 Qwen3 Coder Next none Qwen 2 5.3 1/3 962ms
#91 Mercury 2 none Inception 2 5.3 1/3 534ms
#92 Qwen3 Coder Next medium Qwen 2 5.3 1/3 638ms
#93 GLM 4.7 Flash medium Z.ai 2 3.5 0/3 174.6s
#94 MiMo-V2-Flash none Xiaomi 2 5.3 1/3 564ms
#95 Grok 4.1 Fast none X AI 2 5.9 1/3 1.06s
#2 Gemini 3.1 Pro Preview medium Google 1 7.7 2/3 32.7s
#4 Claude Opus 4.7 none Anthropic 1 7.7 2/3 1.19s
#8 Qwen3.5 Plus 2026-02-15 medium Qwen 1 5.3 1/3 17.5s
#10 Qwen3.5-27B medium Qwen 1 5.3 1/3 79.5s
#14 Gemma 4 31B medium Google 1 7.7 2/3 38.5s
#21 Gemini 3 Flash Preview none Google 1 7.7 2/3 963ms
#23 MiMo-V2-Pro medium Xiaomi 1 5.3 1/3 6.00s
#26 Claude Sonnet 4.6 medium Anthropic 1 2.9 0/3 0ms
#27 DeepSeek V3.2 medium DeepSeek 1 5.3 1/3 39.3s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स