টুল কলিং মডেল র‌্যাঙ্কিং | AI BENCHY

AI BENCHY বিভাগ

দেখুন টুল কলিং এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: মেট্রিক ↑.

দেখানো মডেল

15

গড় টুল কলিং স্কোর

8.7

সেরা মডেল

Grok 4.1 Fast 2.8

ব্যর্থতার কারণ

ব্যর্থতার কারণ API ত্রুটি সহ15 ব্যর্থতার কারণ অবৈধ টুল কল সহ7 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ6 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ ভুল উত্তর সহ2

র‍্যাঙ্ক	মডেল	কোম্পানি	টুল কলিং স্কোর	স্কোর	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#121	Owl Alpha none	Openrouter	10.0	5.5	1/1	22.8s
#123	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	1/1	3.30s
#124	Kimi K2.6 none	Moonshot AI	10.0	5.5	1/1	4.46s
#125	GPT-5.4 none	OpenAI	10.0	5.5	1/1	2.75s
#127	Grok 4.20 none	X AI	10.0	5.4	1/1	4.63s
#128	Qwen3.6 Flash none	Qwen	10.0	5.4	1/1	2.49s
#129	MiniMax M2.5 medium	Minimax	10.0	5.3	1/1	15.4s
#131	Qwen3.5-122B-A10B none	Qwen	10.0	5.3	1/1	2.04s
#132	Mistral Small 4 medium	Mistral	10.0	5.3	1/1	3.50s
#133	DeepSeek V3.2 none	DeepSeek	10.0	5.2	1/1	11.8s
#134	GLM 5 Turbo none	Z.ai	10.0	5.2	1/1	8.21s
#135	Kimi K2.5 none	Moonshot AI	10.0	5.2	1/1	14.0s
#139	DeepSeek V4 Flash none	DeepSeek	10.0	5.0	1/1	77.9s
#140	Qwen3 Coder Next none	Qwen	10.0	4.9	1/1	2.47s
#142	Mistral Small 4 none	Mistral	10.0	4.9	1/1	1.40s

←

1 9 10 11

→

টুল কলিং স্কোর অনুযায়ী শীর্ষ মডেল

টুল কলিং স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল