AI BENCHY
Advertise here

AI BENCHY বিভাগীয় ব্যর্থতা

কোডিং: ভুল উত্তর

কোডিং
ভুল উত্তর

দেখুন কোডিং এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।

দেখানো মডেল

15

মোট ব্যর্থতা

120

সবচেয়ে বেশি প্রভাবিত মডেল

Qwen3.6 Flash 2
র‍্যাঙ্ক মডেল কোম্পানি ভুল উত্তর সংখ্যা বিভাগ স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#59 Qwen3.6 Flash medium Qwen 2 5.1 0/2 51.9s
#66 Qwen3.6 Max Preview none Qwen 2 4.2 0/2 3.06s
#77 Grok 4.20 medium X AI 2 4.1 0/2 65.1s
#88 Qwen3.5 Plus 2026-02-15 none Qwen 2 4.9 0/2 2.54s
#89 GLM 5 none Z.ai 2 4.6 0/2 5.18s
#94 GPT-5 Nano medium OpenAI 2 5.4 0/2 47.8s
#95 DeepSeek V4 Pro none DeepSeek 2 5.4 0/2 8.27s
#109 GLM 4.7 Flash none Z.ai 2 5.0 0/2 3.35s
#111 gpt-oss-120b medium OpenAI 2 3.9 0/2 47.2s
#113 GLM 5.1 none Z.ai 2 4.3 0/2 6.33s
#121 Mistral Small 4 medium Mistral 2 5.1 0/2 44.8s
#124 Qwen3.5-122B-A10B none Qwen 2 4.0 0/2 2.14s
#125 GLM 5 Turbo none Z.ai 2 4.4 0/2 2.58s
#131 DeepSeek V4 Flash none DeepSeek 2 4.8 0/2 24.5s
#132 Qwen3 Coder Next none Qwen 2 5.4 0/2 2.01s

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল

আনুমানিক অপচয় হওয়া খরচ অনুযায়ী শীর্ষ মডেল