टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Hy3 preview 2.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

210/210

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#209	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 0ms
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 0ms
#21	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 10.3s
#55	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 6.69s
#56	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 9.62s
#172	MiniMax M2.7 medium	Minimax	4.7	5.0	$0.163	0/1	12.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 12.0s
#177	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.008	0/1	16.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 16.0s
#198	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 3.39s
#93	GLM 5V Turbo medium	Z.ai	7.0	6.7	$0.457	0/1	12.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 12.5s
#152	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 6.74s
#171	North Mini Code none	Cohere	9.5	5.1	$0.000	1/1	3.64s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.64s
#27	Muse Spark 1.1 high	Meta	9.6	8.1	$1.694	1/1	9.88s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 9.88s
#132	GPT-5.6 Terra none	OpenAI	9.6	6.0	$0.349	1/1	3.10s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 3.10s
#2	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.976 प्रतिसाद वेळ (सरासरी) 4.96s
#16	Muse Spark 1.1 medium	Meta	9.8	8.6	$1.357	1/1	6.99s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 6.99s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स