AI BENCHY
तुलना करा चार्ट्स Paddhati
❤️ Made by XCS
Your ad here

AI BENCHY श्रेणी अपयशे

डेटा पार्सिंग आणि निष्कर्षण
चुकीचे उत्तर

डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

11

एकूण अपयशे

14

सर्वाधिक प्रभावित मॉडेल

Mercury 2 1
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#51 Mercury 2 none Inception 1 5.5 1/2 667ms
#55 LFM2-24B-A2B none Liquid 2 10.0 0/2 714ms
#36 Mercury 2 medium Inception 1 5.5 1/2 1.11s
#48 Qwen3 Coder Next none Qwen 1 5.4 1/2 1.32s
#39 gpt-oss-120b medium OpenAI 1 5.5 1/2 1.98s
#49 GLM 4.7 Flash none Z.ai 1 5.4 1/2 4.82s
#43 MiniMax M2.5 medium Minimax 2 10.0 0/2 7.48s
#33 DeepSeek V3.2 none DeepSeek 1 5.4 1/2 9.42s
#34 GPT-5 Nano medium OpenAI 2 10.0 0/2 21.4s
#46 Kimi K2.5 none Moonshot AI 1 5.4 1/2 42.1s
#50 Qwen3 Coder Next medium Qwen 1 5.4 1/2 81.8s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या विरुद्ध सरासरी स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स