टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Hy3 preview 2.8

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	1/1	10.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 10.6s
#14	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	1/1	3.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 3.27s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	1/1	5.71s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 5.71s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	1/1	6.37s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 6.37s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	1/1	8.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 8.96s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	1/1	4.17s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.477 प्रतिसाद वेळ (सरासरी) 4.17s
#20	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	1/1	17.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 17.0s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	1/1	13.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 13.3s
#22	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	1/1	18.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.143 प्रतिसाद वेळ (सरासरी) 18.3s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	1/1	5.83s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 5.83s
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	1/1	6.57s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.928 प्रतिसाद वेळ (सरासरी) 6.57s
#26	Claude Sonnet 5 medium	Anthropic	10.0	8.3	$0.922	1/1	10.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 10.7s
#28	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	1/1	6.20s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 6.20s
#29	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	1/1	18.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 18.6s
#31	Gemini 3.5 Flash-Lite high	Google	10.0	8.1	$0.584	1/1	4.05s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 4.05s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स