AI BENCHY বিভাগীয় ব্যর্থতা
সাধারণ জ্ঞান: কোন উত্তর নেই
সাধারণ জ্ঞান
কোন উত্তর নেই
দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর কোন উত্তর নেই হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.
ব্যর্থতার কারণ
| র্যাঙ্ক | মডেল | কোম্পানি | কোন উত্তর নেই সংখ্যা | বিভাগ স্কোর | সঠিক টেস্ট | প্রতিক্রিয়া সময় (গড়) |
|---|---|---|---|---|---|---|
| #68 | Claude Opus 4.8 none | Anthropic | 1 | 3.0 | 0/1 | 3.41s |
| #10 | Claude Opus 4.8 medium | Anthropic | 1 | 3.0 | 0/1 | 6.14s |
| #67 | MiniMax M3 medium | Minimax | 1 | 3.0 | 0/1 | 100.8s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 3.0 | 0/1 | 114.0s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 3.0 | 0/1 | 124.8s |
| #71 | Step 3.7 Flash high | Stepfun | 1 | 3.0 | 0/1 | 149.3s |