AI BENCHY
Advertise here

AI BENCHY ব্যর্থতা

নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

15

মোট ব্যর্থতা

215

সবচেয়ে বেশি প্রভাবিত মডেল

Granite 4.1 8B 4
র‍্যাঙ্ক মডেল কোম্পানি নির্দেশনা অনুসরণ করা হয়নি সংখ্যা স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#99 gpt-oss-120b medium OpenAI 3 6.1 9/21 22.3s
#79 Hunter Alpha medium OpenRouter 2 6.7 8/18 10.3s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 6.6 8/18 9.69s
#86 Grok 4.1 Fast medium X AI 4 6.5 9/19 23.8s
#92 Laguna M.1 medium Poolside 1 6.4 9/19 14.7s
#76 Kimi K2.5 medium Moonshot AI 2 6.8 10/21 98.4s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s
#80 Mimo V2 Omni medium Xiaomi 2 6.7 10/21 41.2s
#81 Mercury 2 medium Inception 3 6.6 10/21 2.24s
#85 Gemma 4 31B none Google 1 6.5 10/21 4.05s
#87 Gemini 3.1 Flash Lite minimal Google 3 6.4 10/21 1.33s
#88 Qwen3.7 Plus none Qwen 1 6.4 10/21 2.85s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#59 GLM 5V Turbo medium Z.ai 1 7.2 11/21 23.1s
#67 MiniMax M3 medium Minimax 2 7.1 11/21 68.2s

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা অনুযায়ী শীর্ষ মডেল

নির্দেশনা অনুসরণ করা হয়নি সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল