AI BENCHY
Your ad here

AI BENCHY ব্যর্থতা

অবৈধ টুল কল ব্যর্থতা

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি অবৈধ টুল কল সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

12

মোট ব্যর্থতা

13

সবচেয়ে বেশি প্রভাবিত মডেল

DeepSeek V3.2 1
র‍্যাঙ্ক মডেল কোম্পানি অবৈধ টুল কল সংখ্যা স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#64 DeepSeek V3.2 none DeepSeek 1 6.1 7/18 12.1s
#71 MiniMax M2.5 medium Minimax 1 5.7 5/18 39.6s
#74 GLM 4.7 Flash none Z.ai 1 5.6 5/18 3.35s
#75 GLM 5.1 none Z.ai 1 5.6 5/18 4.33s
#79 Grok 4.20 Beta none X AI 1 5.3 4/18 1.19s
#80 MiniMax M2.7 medium Minimax 1 5.3 4/18 31.1s
#81 Elephant medium Openrouter 1 5.2 5/18 1.27s
#82 Grok 4.20 none X AI 1 5.2 5/18 1.11s
#85 Elephant none Openrouter 1 5.2 5/18 1.23s
#90 Qwen3.5-9B none Qwen 1 4.8 4/18 1.47s
#93 GLM 4.7 Flash medium Z.ai 1 4.6 4/18 32.3s
#31 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s

অবৈধ টুল কল সংখ্যা অনুযায়ী শীর্ষ মডেল

অবৈধ টুল কল সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল