টুল কলিং মডেল র‌্যাঙ্কিং | AI BENCHY

AI BENCHY বিভাগ

দেখুন টুল কলিং এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

15

গড় টুল কলিং স্কোর

8.7

সেরা মডেল

Grok 4.20 Beta 3.0

ব্যর্থতার কারণ

ব্যর্থতার কারণ API ত্রুটি সহ15 ব্যর্থতার কারণ অবৈধ টুল কল সহ7 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ6 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ ভুল উত্তর সহ2

র‍্যাঙ্ক	মডেল	কোম্পানি	টুল কলিং স্কোর	স্কোর	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#15	GPT-5.3-Codex medium	OpenAI	10.0	8.4	1/1	6.37s
#16	Gemini 3 Flash Preview low	Google	10.0	8.4	1/1	4.99s
#17	GLM 5 medium	Z.ai	10.0	8.3	1/1	15.9s
#18	Qwen3.7 Plus medium	Qwen	10.0	8.2	1/1	15.0s
#19	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.2	1/1	12.4s
#21	GPT-5.4 medium	OpenAI	10.0	8.0	1/1	13.3s
#22	Step 3.7 Flash medium	Stepfun	10.0	8.0	1/1	4.16s
#23	GLM 5 Turbo medium	Z.ai	10.0	8.0	1/1	9.84s
#24	GPT-5.2 Chat none	OpenAI	10.0	7.9	1/1	4.68s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.9	1/1	7.54s
#26	Qwen3.6 Plus medium	Qwen	10.0	7.9	1/1	5.87s
#28	Gemini 2.5 Flash medium	Google	10.0	7.8	1/1	6.20s
#29	Qwen3.5-122B-A10B medium	Qwen	10.0	7.8	1/1	4.60s
#30	Qwen3.5-27B medium	Qwen	10.0	7.8	1/1	7.45s
#31	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	1/1	74.7s

টুল কলিং স্কোর অনুযায়ী শীর্ষ মডেল

টুল কলিং স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল