টুল কলিং মডেল র‌্যাঙ্কিং | AI BENCHY

AI BENCHY বিভাগ

দেখুন টুল কলিং এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

15

গড় টুল কলিং স্কোর

8.7

সেরা মডেল

Gemini 3 Flash Preview 10.0

ব্যর্থতার কারণ

ব্যর্থতার কারণ API ত্রুটি সহ15 ব্যর্থতার কারণ অবৈধ টুল কল সহ7 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ6 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ ভুল উত্তর সহ2

র‍্যাঙ্ক	মডেল	কোম্পানি	টুল কলিং স্কোর	স্কোর	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#147	GPT-4o-mini none	OpenAI	10.0	4.8	1/1	2.51s
#148	GPT-5.4 Nano none	OpenAI	10.0	4.7	1/1	3.40s
#150	Qwen3 Coder Next medium	Qwen	10.0	4.6	1/1	2.64s
#151	Trinity Large Preview none	Arcee AI	10.0	4.6	1/1	6.67s
#152	MiMo-V2-Flash none	Xiaomi	10.0	4.6	1/1	2.28s
#154	Qwen3.5-9B none	Qwen	10.0	4.6	1/1	1.27s
#155	Mercury 2 none	Inception	10.0	4.5	1/1	1.27s
#156	Hy3 preview none	Tencent	10.0	4.4	1/1	33.8s
#158	GLM 4.7 Flash medium	Z.ai	10.0	4.4	1/1	15.9s
#161	Qwen3.5-9B medium	Qwen	10.0	4.2	1/1	4.31s
#163	Granite 4.1 8B none	IBM Granite	10.0	4.0	1/1	2.17s
#13	Grok 4.20 Beta medium	X AI	3.0	8.5	0/1	12.4s
#20	Gemini 3.5 Flash none	Google	3.0	8.1	0/1	0ms
#27	Gemma 4 31B medium	Google	3.0	7.8	0/1	0ms
#42	GPT-5.2 medium	OpenAI	4.7	7.5	0/1	10.3s

টুল কলিং স্কোর অনুযায়ী শীর্ষ মডেল

টুল কলিং স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল