टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Ring-2.6-1T 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#200	GLM 4.7 Flash medium	Z.ai	10.0	4.3	$0.166	1/1	15.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.166 प्रतिसाद वेळ (सरासरी) 15.9s
#46	GLM 5 medium	Z.ai	10.0	7.7	$0.307	1/1	15.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 15.9s
#50	DeepSeek V4 Pro high	DeepSeek	9.8	7.7	$0.200	1/1	15.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 15.9s
#101	GLM 5.2 none	Z.ai	10.0	6.6	$0.128	1/1	15.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.128 प्रतिसाद वेळ (सरासरी) 15.8s
#196	MiniMax M2.5 medium	Minimax	10.0	4.6	$0.340	1/1	15.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 15.4s
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	1/1	15.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 15.0s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	1/1	15.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.267 प्रतिसाद वेळ (सरासरी) 15.0s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	1/1	14.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 14.7s
#161	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.127	1/1	14.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 14.0s
#140	Mimo V2 Omni medium	Xiaomi	10.0	5.9	$0.683	1/1	14.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 14.0s
#79	Grok 4.20 medium	X AI	3.0	7.1	$0.777	0/1	13.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 13.7s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	1/1	13.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 13.3s
#52	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	1/1	13.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 13.1s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.742 प्रतिसाद वेळ (सरासरी) 12.6s
#98	GLM 5V Turbo medium	Z.ai	7.0	6.7	$0.457	0/1	12.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 12.5s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स