AI BENCHY
Advertise here

AI BENCHY श्रेणी अपयशे

कोडिंग: चुकीचे उत्तर

कोडिंग
चुकीचे उत्तर

कोडिंग मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

120

सर्वाधिक प्रभावित मॉडेल

Qwen3.6 Flash 2
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#25 Qwen3.5-27B medium Qwen 1 7.0 1/2 123.9s
#26 Qwen3.7 Max none Qwen 1 6.8 1/2 1.39s
#27 GPT-5.4 medium OpenAI 1 8.2 1/2 55.0s
#33 Qwen3.6 Plus medium Qwen 1 4.1 0/2 201.7s
#34 Gemini 3.1 Flash Lite Preview medium Google 1 6.8 1/2 3.98s
#35 Gemini 3.1 Flash Lite medium Google 1 6.8 1/2 3.59s
#36 Gemini 2.5 Flash medium Google 1 6.6 1/2 54.6s
#38 Qwen3.5-122B-A10B medium Qwen 1 4.1 0/2 119.6s
#39 Gemini 3 Flash Preview none Google 1 6.8 1/2 2.19s
#41 Gemini 3.1 Flash Lite Preview low Google 1 6.8 1/2 1.56s
#42 Qwen3.5 Plus 2026-04-20 medium Qwen 1 5.4 1/2 137.5s
#43 GPT-5.2 Chat none OpenAI 1 8.2 1/2 8.05s
#44 MiMo-V2-Pro medium Xiaomi 1 7.5 1/2 94.2s
#45 Grok Build 0.1 medium X AI 1 5.3 0/2 67.4s
#49 Gemini 3.1 Flash Lite Preview none Google 1 6.8 1/2 1.06s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स