টুল কলিং মডেল র‌্যাঙ্কিং | AI BENCHY

AI BENCHY বিভাগ

দেখুন টুল কলিং এ কোন AI মডেল সবচেয়ে ভালো করে, কোনগুলো নির্ভরযোগ্য থাকে, আর সবচেয়ে বড় পার্থক্য কোথায় দেখা যায়। সাজান: সঠিক টেস্ট ↑.

দেখানো মডেল

15

গড় টুল কলিং স্কোর

8.7

সেরা মডেল

Grok 4.20 Beta 3.0

ব্যর্থতার কারণ

ব্যর্থতার কারণ API ত্রুটি সহ15 ব্যর্থতার কারণ অবৈধ টুল কল সহ7 ব্যর্থতার কারণ নির্দেশনা অনুসরণ করা হয়নি সহ6 ব্যর্থতার কারণ কোন উত্তর নেই সহ2 ব্যর্থতার কারণ ভুল উত্তর সহ2

র‍্যাঙ্ক	মডেল	কোম্পানি	টুল কলিং স্কোর	স্কোর	সঠিক টেস্ট	প্রতিক্রিয়া সময় (গড়)
#105	Nemotron 3 Super medium	NVIDIA	10.0	5.8	1/1	39.7s
#106	Grok 4.20 Beta none	X AI	10.0	5.8	1/1	4.79s
#108	Qwen3.5-Flash none	Qwen	10.0	5.8	1/1	3.67s
#109	GLM 5V Turbo none	Z.ai	10.0	5.8	1/1	4.86s
#110	Seed-2.0-Lite none	Bytedance Seed	10.0	5.8	1/1	3.94s
#111	Owl Alpha medium	Openrouter	10.0	5.7	1/1	8.26s
#112	GLM 5.1 none	Z.ai	10.0	5.7	1/1	10.7s
#113	DeepSeek V4 Pro none	DeepSeek	10.0	5.7	1/1	5.92s
#114	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	5.7	1/1	4.42s
#115	Qwen3.5-27B none	Qwen	10.0	5.7	1/1	3.54s
#116	Hunter Alpha none	OpenRouter	10.0	5.7	1/1	6.02s
#117	Qwen3.5-35B-A3B none	Qwen	10.0	5.6	1/1	2.30s
#118	Qwen3.6 27B none	Qwen	9.5	5.6	1/1	6.74s
#119	Cobuddy medium	Baidu	10.0	5.6	1/1	11.2s
#120	Mimo V2 PRO none	Xiaomi	10.0	5.6	1/1	4.39s

টুল কলিং স্কোর অনুযায়ী শীর্ষ মডেল

টুল কলিং স্কোর বনাম মোট খরচ

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল