AI BENCHY ব্যর্থতা
অবৈধ টুল কল ব্যর্থতা
দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি অবৈধ টুল কল সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: গড় স্কোর ↑.
সম্পর্কিত বিভাগ
| র্যাঙ্ক | মডেল | কোম্পানি | অবৈধ টুল কল সংখ্যা | গড় স্কোর | সঠিক টেস্ট | প্রতিক্রিয়া সময় (গড়) |
|---|---|---|---|---|---|---|
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 3.1 | 4/16 | 36.8s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 3.9 | 4/16 | 2.99s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 4.7 | 5/16 | 43.0s |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.5 | 7/16 | 12.9s |