AI BENCHY ব্যর্থতা
নির্দেশনা অনুসরণ করা হয়নি ব্যর্থতা
দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি নির্দেশনা অনুসরণ করা হয়নি সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: ব্যর্থতার সংখ্যা ↑.
| র্যাঙ্ক | মডেল | কোম্পানি | নির্দেশনা অনুসরণ করা হয়নি সংখ্যা | স্কোর | সঠিক টেস্ট | প্রতিক্রিয়া সময় (গড়) |
|---|---|---|---|---|---|---|
| #65 | Grok 4.20 medium | X AI | 2 | 7.1 | 12/21 | 27.7s |
| #67 | MiniMax M3 medium | Minimax | 2 | 7.1 | 11/21 | 68.2s |
| #70 | GPT-5.4 Nano medium | OpenAI | 2 | 7.0 | 11/21 | 12.0s |
| #75 | Ring-2.6-1T medium | Inclusionai | 2 | 6.9 | 11/21 | 61.3s |
| #76 | Kimi K2.5 medium | Moonshot AI | 2 | 6.8 | 10/21 | 98.4s |
| #79 | Hunter Alpha medium | OpenRouter | 2 | 6.7 | 8/18 | 10.3s |
| #80 | Mimo V2 Omni medium | Xiaomi | 2 | 6.7 | 10/21 | 41.2s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 6.6 | 8/18 | 9.69s |
| #94 | GPT-5 Nano medium | OpenAI | 2 | 6.3 | 9/21 | 42.5s |
| #96 | Ring-2.6-1T none | Inclusionai | 2 | 6.2 | 9/21 | 55.1s |
| #100 | Grok Build 0.1 none | X AI | 2 | 6.0 | 7/19 | 28.7s |
| #102 | Gemma 4 26B A4B none | 2 | 6.0 | 8/21 | 5.91s | |
| #109 | GLM 5V Turbo none | Z.ai | 2 | 5.8 | 8/21 | 2.99s |
| #111 | Owl Alpha medium | Openrouter | 2 | 5.7 | 8/21 | 11.9s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 2 | 5.7 | 7/21 | 12.4s |