AI BENCHY
Your ad here

AI BENCHY ব্যর্থতা

অবৈধ টুল কল ব্যর্থতা

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি অবৈধ টুল কল সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↑.

দেখানো মডেল

12

মোট ব্যর্থতা

13

সবচেয়ে বেশি প্রভাবিত মডেল

GLM 4.7 Flash 1
র‍্যাঙ্ক মডেল কোম্পানি অবৈধ টুল কল সংখ্যা স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#93 GLM 4.7 Flash medium Z.ai 1 4.6 4/18 32.3s
#90 Qwen3.5-9B none Qwen 1 4.8 4/18 1.47s
#85 Elephant none Openrouter 1 5.2 5/18 1.23s
#82 Grok 4.20 none X AI 1 5.2 5/18 1.11s
#81 Elephant medium Openrouter 1 5.2 5/18 1.27s
#80 MiniMax M2.7 medium Minimax 1 5.3 4/18 31.1s
#79 Grok 4.20 Beta none X AI 1 5.3 4/18 1.19s
#74 GLM 4.7 Flash none Z.ai 1 5.6 5/18 3.35s
#75 GLM 5.1 none Z.ai 1 5.6 5/18 4.33s
#71 MiniMax M2.5 medium Minimax 1 5.7 5/18 39.6s
#64 DeepSeek V3.2 none DeepSeek 1 6.1 7/18 12.1s
#31 GLM 5V Turbo medium Z.ai 2 7.8 11/18 15.0s

অবৈধ টুল কল সংখ্যা অনুযায়ী শীর্ষ মডেল

অবৈধ টুল কল সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল