টুল কলিং মডেল র‌্যাঙ্কিং | AI BENCHY

AI BENCHY বিভাগ

দেখুন টুল কলিং এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↓.

দেখানো মডেল

15

গড় টুল কলিং স্কোর

8.7

সেরা মডেল

Gemini 3 Flash Preview 10.0

ব্যর্থতার কারণ

ব্যর্থতার কারণ API ত্রুটি সহ15 ব্যর্থতার কারণ অবৈধ টুল কল সহ7 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ6 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ ভুল উত্তর সহ2

র‍্যাঙ্ক	মডেল	কোম্পানি	টুল কলিং স্কোর	স্কোর	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#17	GLM 5 medium	Z.ai	10.0	8.3	1/1	15.9s
#18	Qwen3.7 Plus medium	Qwen	10.0	8.2	1/1	15.0s
#19	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.2	1/1	12.4s
#21	GPT-5.4 medium	OpenAI	10.0	8.0	1/1	13.3s
#22	Step 3.7 Flash medium	Stepfun	10.0	8.0	1/1	4.16s
#23	GLM 5 Turbo medium	Z.ai	10.0	8.0	1/1	9.84s
#24	GPT-5.2 Chat none	OpenAI	10.0	7.9	1/1	4.68s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.9	1/1	7.54s
#26	Qwen3.6 Plus medium	Qwen	10.0	7.9	1/1	5.87s
#28	Gemini 2.5 Flash medium	Google	10.0	7.8	1/1	6.20s
#29	Qwen3.5-122B-A10B medium	Qwen	10.0	7.8	1/1	4.60s
#30	Qwen3.5-27B medium	Qwen	10.0	7.8	1/1	7.45s
#31	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	1/1	74.7s
#32	Gemini 3.5 Flash minimal	Google	10.0	7.7	1/1	2.79s
#33	Hy3 preview medium	Tencent	10.0	7.7	1/1	15.0s

টুল কলিং স্কোর অনুযায়ী শীর্ষ মডেল

টুল কলিং স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল