AI BENCHY
Your ad here

AI BENCHY श्रेणी अपयशे

कोडी सोडवणे: चुकीचे उत्तर

कोडी सोडवणे
चुकीचे उत्तर

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

85

सर्वाधिक प्रभावित मॉडेल

Kimi K2.5 3
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#76 Kimi K2.5 none Moonshot AI 3 3.1 0/3 4.73s
#87 Qwen3 Coder Next none Qwen 3 3.2 0/3 22.9s
#89 GPT-4o-mini none OpenAI 3 3.7 0/3 1.30s
#91 Mercury 2 none Inception 3 3.1 0/3 533ms
#94 MiMo-V2-Flash none Xiaomi 3 3.6 0/3 1.38s
#95 Grok 4.1 Fast none X AI 3 3.2 0/3 1.28s
#59 Qwen3.5-Flash none Qwen 2 3.3 0/3 5.90s
#61 Seed-2.0-Lite none Bytedance Seed 2 5.2 1/3 2.46s
#63 Qwen3.5-35B-A3B none Qwen 2 3.9 0/3 1.34s
#70 Qwen3.5-122B-A10B none Qwen 2 5.4 1/3 982ms
#78 Trinity Large Preview none Arcee AI 2 5.4 1/3 3.30s
#85 Elephant none Openrouter 2 3.3 0/3 849ms
#93 GLM 4.7 Flash medium Z.ai 2 2.9 0/3 12.9s
#96 GPT-5.4 Nano none OpenAI 2 3.7 0/3 1.29s
#11 Gemini 3.1 Flash Lite Preview high Google 1 7.7 2/3 46.3s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स