AI BENCHY ব্যর্থতা
নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা
দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।
| র্যাঙ্ক | মডেল | কোম্পানি | নির্দেশনা অনুসরণ করা হয়নি সংখ্যা | স্কোর | সঠিক টেস্ট | প্রতিক্রিয়া সময় (গড়) |
|---|---|---|---|---|---|---|
| #125 | GPT-5.4 none | OpenAI | 1 | 5.5 | 7/21 | 1.42s |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 5.4 | 7/21 | 1.60s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 5.2 | 6/21 | 13.8s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 5.0 | 5/21 | 26.8s |
| #140 | Qwen3 Coder Next none | Qwen | 1 | 4.9 | 5/21 | 8.62s |
| #142 | Mistral Small 4 none | Mistral | 1 | 4.9 | 5/21 | 630ms |
| #143 | MiMo-V2.5 none | Xiaomi | 1 | 4.9 | 5/21 | 2.20s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 4.8 | 5/19 | 806ms |
| #147 | GPT-4o-mini none | OpenAI | 1 | 4.8 | 5/21 | 1.77s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 4.6 | 4/19 | 17.1s |
| #155 | Mercury 2 none | Inception | 1 | 4.5 | 4/21 | 653ms |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 4.2 | 2/16 | 782ms |
| #161 | Qwen3.5-9B medium | Qwen | 1 | 4.2 | 3/21 | 82.2s |