टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Hy3 preview 2.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#27	Muse Spark 1.1 low	Meta	9.8	8.3	$0.647	1/1	5.98s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 5.98s
#50	DeepSeek V4 Pro high	DeepSeek	9.8	7.7	$0.200	1/1	15.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 15.9s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	1/1	1.76s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.145 प्रतिसाद वेळ (सरासरी) 1.76s
#127	gpt-oss-120b medium	OpenAI	9.8	6.1	$0.019	1/1	6.91s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 6.91s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.831 प्रतिसाद वेळ (सरासरी) 8.55s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.785 प्रतिसाद वेळ (सरासरी) 9.76s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.742 प्रतिसाद वेळ (सरासरी) 12.6s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 7.56s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	1/1	4.78s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.517 प्रतिसाद वेळ (सरासरी) 4.78s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	1/1	6.30s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 6.30s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	1/1	7.08s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 7.08s
#9	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	1/1	4.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.253 प्रतिसाद वेळ (सरासरी) 4.96s
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	1/1	23.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.361 प्रतिसाद वेळ (सरासरी) 23.1s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	1/1	6.63s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.116 प्रतिसाद वेळ (सरासरी) 6.63s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	1/1	3.81s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 3.81s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स