AI BENCHY বিভাগীয় ব্যর্থতা
সাধারণ জ্ঞান: ভুল উত্তর
সাধারণ জ্ঞান
ভুল উত্তর
দেখুন সাধারণ জ্ঞান এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়। সাজান: প্রতিক্রিয়া সময় (গড়) ↑.
ব্যর্থতার কারণ
| র্যাঙ্ক | মডেল | কোম্পানি | ভুল উত্তর সংখ্যা | বিভাগ স্কোর | সঠিক টেস্ট | প্রতিক্রিয়া সময় (গড়) |
|---|---|---|---|---|---|---|
| #110 | Qwen3.5-122B-A10B none | Qwen | 1 | 3.0 | 0/1 | 295ms |
| #142 | Granite 4.1 8B none | IBM Granite | 1 | 3.0 | 0/1 | 306ms |
| #124 | Mistral Small 4 none | Mistral | 1 | 3.0 | 0/1 | 397ms |
| #129 | Qwen3 Coder Next medium | Qwen | 1 | 3.0 | 0/1 | 399ms |
| #126 | Qwen3.6 35B A3B none | Qwen | 1 | 3.0 | 0/1 | 414ms |
| #91 | Qwen3.5-35B-A3B none | Qwen | 1 | 3.0 | 0/1 | 493ms |
| #131 | Mercury 2 none | Inception | 1 | 3.0 | 0/1 | 548ms |
| #89 | Qwen3.5-Flash none | Qwen | 1 | 3.0 | 0/1 | 588ms |
| #93 | Qwen3.5-27B none | Qwen | 1 | 3.0 | 0/1 | 599ms |
| #121 | Qwen3 Coder Next none | Qwen | 1 | 3.0 | 0/1 | 601ms |
| #105 | Qwen3.6 Flash none | Qwen | 1 | 3.0 | 0/1 | 649ms |
| #97 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 692ms |
| #68 | Gemini 3.1 Flash Lite minimal | 1 | 3.0 | 0/1 | 724ms | |
| #139 | Grok 4.1 Fast none | X AI | 1 | 3.0 | 0/1 | 731ms |
| #73 | Gemini 3.1 Flash Lite none | 1 | 3.0 | 0/1 | 733ms |