AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी विफलताएँ

कोडिंग: गलत उत्तर

कोडिंग
गलत उत्तर

देखें कि कोडिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

15

कुल विफलताएँ

120

सबसे अधिक प्रभावित मॉडल

Qwen3.6 Flash 2
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#25 Qwen3.5-27B medium Qwen 1 7.0 1/2 123.9s
#26 Qwen3.7 Max none Qwen 1 6.8 1/2 1.39s
#27 GPT-5.4 medium OpenAI 1 8.2 1/2 55.0s
#33 Qwen3.6 Plus medium Qwen 1 4.1 0/2 201.7s
#34 Gemini 3.1 Flash Lite Preview medium Google 1 6.8 1/2 3.98s
#35 Gemini 3.1 Flash Lite medium Google 1 6.8 1/2 3.59s
#36 Gemini 2.5 Flash medium Google 1 6.6 1/2 54.6s
#38 Qwen3.5-122B-A10B medium Qwen 1 4.1 0/2 119.6s
#39 Gemini 3 Flash Preview none Google 1 6.8 1/2 2.19s
#41 Gemini 3.1 Flash Lite Preview low Google 1 6.8 1/2 1.56s
#42 Qwen3.5 Plus 2026-04-20 medium Qwen 1 5.4 1/2 137.5s
#43 GPT-5.2 Chat none OpenAI 1 8.2 1/2 8.05s
#44 MiMo-V2-Pro medium Xiaomi 1 7.5 1/2 94.2s
#45 Grok Build 0.1 medium X AI 1 5.3 0/2 67.4s
#49 Gemini 3.1 Flash Lite Preview none Google 1 6.8 1/2 1.06s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल