AI BENCHY
Advertise here

AI BENCHY ব্যর্থতা

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

15

মোট ব্যর্থতা

215

সবচেয়ে বেশি প্রভাবিত মডেল

MiniMax M2.7 5
র‍্যাঙ্ক মডেল কোম্পানি নির্দেশনা অনুসরণ করা হয়নি সংখ্যা স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#69 Claude Opus 4.6 medium Anthropic 1 7.0 12/21 25.9s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#77 Claude Sonnet 4.6 none Anthropic 1 6.8 11/21 5.04s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#85 Gemma 4 31B none Google 1 6.5 10/21 4.05s
#88 Qwen3.7 Plus none Qwen 1 6.4 10/21 2.85s
#90 Gemini 3.1 Flash Lite none Google 1 6.4 9/21 1.06s
#92 Laguna M.1 medium Poolside 1 6.4 9/19 14.7s
#101 Mimo V2 Omni none Xiaomi 1 6.0 8/21 2.44s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 1 6.0 8/21 2.27s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#122 GLM 4.7 Flash none Z.ai 1 5.5 6/21 2.86s

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল