AI BENCHY
তুলনা করুন চার্ট Poddhoti
❤️ Made by XCS
Your ad here

AI BENCHY ব্যর্থতা

অবৈধ টুল কল ব্যর্থতা

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি অবৈধ টুল কল সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: গড় স্কোর ↓.

দেখানো মডেল

4

মোট ব্যর্থতা

4

সবচেয়ে বেশি প্রভাবিত মডেল

DeepSeek V3.2 1

সম্পর্কিত বিভাগ

র‍্যাঙ্ক মডেল কোম্পানি অবৈধ টুল কল সংখ্যা গড় স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#33 DeepSeek V3.2 none DeepSeek 1 5.5 7/16 12.9s
#43 MiniMax M2.5 medium Minimax 1 4.7 5/16 43.0s
#49 GLM 4.7 Flash none Z.ai 1 3.9 4/16 2.99s
#52 GLM 4.7 Flash medium Z.ai 1 3.1 4/16 36.8s

অবৈধ টুল কল সংখ্যা অনুযায়ী শীর্ষ মডেল

অবৈধ টুল কল সংখ্যা বনাম গড় স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল