AI BENCHY বিভাগীয় ব্যর্থতা
ডোমেইন-নির্দিষ্ট: কোন উত্তর নেই
ডোমেইন-নির্দিষ্ট
কোন উত্তর নেই
দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর কোন উত্তর নেই হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: সঠিক টেস্ট ↑.
ব্যর্থতার কারণ
| র্যাঙ্ক | মডেল | কোম্পানি | কোন উত্তর নেই সংখ্যা | বিভাগ স্কোর | সঠিক টেস্ট | প্রতিক্রিয়া সময় (গড়) |
|---|---|---|---|---|---|---|
| #71 | Step 3.7 Flash high | Stepfun | 1 | 4.1 | 0/3 | 149.6s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 47.9s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 4.1 | 0/3 | 11.1s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 2.9 | 0/3 | 56.7s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 3.5 | 0/3 | 174.6s |