AI BENCHY বিভাগীয় ব্যর্থতা
নির্দেশনা অনুসরণ: নির্দেশনা অনুসরণ করা হয়নি
নির্দেশনা অনুসরণ
নির্দেশনা অনুসরণ করা হয়নি
দেখুন নির্দেশনা অনুসরণ এ কোন AI মডেলগুলোর নির্দেশনা অনুসরণ করা হয়নি হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.
ব্যর্থতার কারণ
| র্যাঙ্ক | মডেল | কোম্পানি | নির্দেশনা অনুসরণ করা হয়নি সংখ্যা | বিভাগ স্কোর | সঠিক টেস্ট | প্রতিক্রিয়া সময় (গড়) |
|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.6 | 0/2 | 344ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 1 | 4.8 | 0/2 | 541ms |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 7.5 | 1/2 | 621ms |
| #157 | Grok 4.1 Fast none | X AI | 1 | 3.0 | 0/2 | 685ms |
| #151 | Trinity Large Preview none | Arcee AI | 1 | 3.5 | 0/2 | 822ms |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 7.3 | 1/2 | 1.37s |
| #86 | Grok 4.1 Fast medium | X AI | 1 | 6.5 | 1/2 | 4.63s |
| #62 | Step 3.5 Flash medium | Stepfun | 1 | 8.3 | 1/2 | 4.78s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 8.3 | 1/2 | 4.99s |
| #105 | Nemotron 3 Super medium | NVIDIA | 1 | 7.3 | 1/2 | 6.97s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 3.8 | 0/2 | 12.8s |