AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

कोडिंग: गलत उत्तर

कोडिंग
गलत उत्तर

देखें कि कोडिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

11

कुल विफलताएँ

26

सबसे अधिक प्रभावित मॉडल

MiMo-V2-Omni 1
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#77 Grok 4.20 none X AI 1 3.4 0/1 1.22s
#78 Mistral Small 4 none Mistral 1 4.5 0/1 1.28s
#79 gpt-oss-120b none OpenAI 1 4.3 0/1 9.57s
#81 Qwen3 Coder Next none Qwen 1 7.3 0/1 3.14s
#82 Nemotron 3 Super none NVIDIA 1 3.3 0/1 2.99s
#83 GPT-4o-mini none OpenAI 1 3.0 0/1 2.55s
#84 Qwen3.5-9B none Qwen 1 5.2 0/1 5.69s
#85 Mercury 2 none Inception 1 3.6 0/1 969ms
#88 MiMo-V2-Flash none Xiaomi 1 6.3 0/1 2.79s
#89 Grok 4.1 Fast none X AI 1 5.3 0/1 1.79s
#90 GPT-5.4 Nano none OpenAI 1 7.1 0/1 1.43s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल