টুল কলিং মডেল র‌্যাঙ্কিং | AI BENCHY

AI BENCHY বিভাগ

দেখুন টুল কলিং এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

15

গড় টুল কলিং স্কোর

8.7

সেরা মডেল

Grok 4.20 Beta 3.0

ব্যর্থতার কারণ

ব্যর্থতার কারণ API ত্রুটি সহ15 ব্যর্থতার কারণ অবৈধ টুল কল সহ7 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ6 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ ভুল উত্তর সহ2

র‍্যাঙ্ক	মডেল	কোম্পানি	টুল কলিং স্কোর	স্কোর	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#13	Grok 4.20 Beta medium	X AI	3.0	8.5	0/1	12.4s
#20	Gemini 3.5 Flash none	Google	3.0	8.1	0/1	0ms
#27	Gemma 4 31B medium	Google	3.0	7.8	0/1	0ms
#42	GPT-5.2 medium	OpenAI	4.7	7.5	0/1	10.3s
#45	GPT-5.4 Mini medium	OpenAI	4.7	7.5	0/1	9.62s
#46	Qwen3.6 35B A3B medium	Qwen	3.0	7.4	0/1	0ms
#55	GLM 5.1 medium	Z.ai	3.0	7.3	0/1	0ms
#59	GLM 5V Turbo medium	Z.ai	7.0	7.2	0/1	12.5s
#65	Grok 4.20 medium	X AI	3.0	7.1	0/1	13.7s
#83	Step 3.5 Flash none	Stepfun	3.0	6.6	0/1	0ms
#84	Grok 4.20 Multi Agent Beta medium	X AI	3.0	6.6	0/1	0ms
#85	Gemma 4 31B none	Google	3.0	6.5	0/1	0ms
#86	Grok 4.1 Fast medium	X AI	2.8	6.5	0/1	27.7s
#89	Hy3 preview low	Tencent	2.8	6.4	0/1	17.8s
#96	Ring-2.6-1T none	Inclusionai	3.0	6.2	0/1	0ms

1 2 11

→

টুল কলিং স্কোর অনুযায়ী শীর্ষ মডেল

টুল কলিং স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল