टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

GPT-5.2 4.7

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	1/1	14.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 14.7s
#75	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	1/1	3.54s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 3.54s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	1/1	4.60s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.046 प्रतिसाद वेळ (सरासरी) 4.60s
#77	Grok 4.3 medium	X AI	10.0	7.1	$0.779	1/1	17.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 17.7s
#80	DeepSeek V3.2 medium	DeepSeek	10.0	7.0	$0.078	1/1	34.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 34.8s
#81	Kimi K2.5 medium	Moonshot AI	10.0	7.0	$0.600	1/1	31.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 31.7s
#82	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.89s
#84	Seed-2.0-Mini medium	Bytedance Seed	10.0	7.0	$0.101	1/1	88.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.101 प्रतिसाद वेळ (सरासरी) 88.7s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	10.0	6.9	$0.467	1/1	19.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 19.0s
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	1/1	7.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 7.40s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 3.70s
#88	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	1/1	16.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 16.9s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.738 प्रतिसाद वेळ (सरासरी) 4.00s
#90	Step 3.7 Flash high	Stepfun	10.0	6.9	$1.207	1/1	2.79s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.207 प्रतिसाद वेळ (सरासरी) 2.79s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 3.90s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स