AI BENCHY
Advertise here

AI BENCHY श्रेणी विफलताएँ

कोडिंग: गलत उत्तर

कोडिंग
गलत उत्तर

देखें कि कोडिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

15

कुल विफलताएँ

120

सबसे अधिक प्रभावित मॉडल

Qwen3.6 Flash 2
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#59 Qwen3.6 Flash medium Qwen 2 5.1 0/2 51.9s
#66 Qwen3.6 Max Preview none Qwen 2 4.2 0/2 3.06s
#77 Grok 4.20 medium X AI 2 4.1 0/2 65.1s
#88 Qwen3.5 Plus 2026-02-15 none Qwen 2 4.9 0/2 2.54s
#89 GLM 5 none Z.ai 2 4.6 0/2 5.18s
#94 GPT-5 Nano medium OpenAI 2 5.4 0/2 47.8s
#95 DeepSeek V4 Pro none DeepSeek 2 5.4 0/2 8.27s
#109 GLM 4.7 Flash none Z.ai 2 5.0 0/2 3.35s
#111 gpt-oss-120b medium OpenAI 2 3.9 0/2 47.2s
#113 GLM 5.1 none Z.ai 2 4.3 0/2 6.33s
#121 Mistral Small 4 medium Mistral 2 5.1 0/2 44.8s
#124 Qwen3.5-122B-A10B none Qwen 2 4.0 0/2 2.14s
#125 GLM 5 Turbo none Z.ai 2 4.4 0/2 2.58s
#131 DeepSeek V4 Flash none DeepSeek 2 4.8 0/2 24.5s
#132 Qwen3 Coder Next none Qwen 2 5.4 0/2 2.01s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल