AI BENCHY বিভাগীয় ব্যর্থতা
ডোমেইন-নির্দিষ্ট: ভুল উত্তর
ডোমেইন-নির্দিষ্ট
ভুল উত্তর
দেখুন ডোমেইন-নির্দিষ্ট এ কোন AI মডেলগুলোর ভুল উত্তর হওয়ার সম্ভাবনা সবচেয়ে বেশি, যাতে দুর্বল দিক দ্রুত ধরা যায়।
ব্যর্থতার কারণ
| র্যাঙ্ক | মডেল | কোম্পানি | ভুল উত্তর সংখ্যা | বিভাগ স্কোর | সঠিক টেস্ট | প্রতিক্রিয়া সময় (গড়) |
|---|---|---|---|---|---|---|
| #55 | MiMo-V2-Omni none | Xiaomi | 2 | 5.3 | 1/3 | 1.14s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 2.9 | 0/3 | 24.7s |
| #58 | GLM 5V Turbo none | Z.ai | 2 | 5.3 | 1/3 | 2.09s |
| #62 | Gemini 2.5 Flash none | 2 | 5.9 | 1/3 | 495ms | |
| #65 | MiMo-V2-Pro none | Xiaomi | 2 | 5.3 | 1/3 | 1.78s |
| #66 | GPT-5.4 none | OpenAI | 2 | 5.3 | 1/3 | 1.07s |
| #69 | Kimi K2.6 none | Moonshot AI | 2 | 5.3 | 1/3 | 1.48s |
| #70 | Qwen3.5-122B-A10B none | Qwen | 2 | 5.3 | 1/3 | 465ms |
| #71 | MiniMax M2.5 medium | Minimax | 2 | 2.9 | 0/3 | 237.3s |
| #72 | Hunter Alpha none | OpenRouter | 2 | 5.3 | 1/3 | 2.33s |
| #76 | Kimi K2.5 none | Moonshot AI | 2 | 5.3 | 1/3 | 4.38s |
| #77 | GLM 5 Turbo none | Z.ai | 2 | 5.3 | 1/3 | 1.97s |
| #78 | Trinity Large Preview none | Arcee AI | 2 | 5.3 | 1/3 | 877ms |
| #82 | Grok 4.20 none | X AI | 2 | 3.0 | 0/3 | 687ms |
| #83 | Mistral Small 4 none | Mistral | 2 | 5.3 | 1/3 | 367ms |