टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Ring-2.6-1T 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#127	gpt-oss-120b medium	OpenAI	9.8	6.1	$0.019	1/1	6.91s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 6.91s
#45	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	1/1	6.85s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 6.85s
#118	Claude Sonnet 5 none	Anthropic	10.0	6.3	$0.548	1/1	6.80s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 6.80s
#158	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 6.74s
#59	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 6.69s
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	1/1	6.67s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 6.67s
#117	LongCat 2.0 none	Meituan	10.0	6.3	$0.044	1/1	6.64s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 6.64s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	1/1	6.63s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.116 प्रतिसाद वेळ (सरासरी) 6.63s
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	1/1	6.57s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.928 प्रतिसाद वेळ (सरासरी) 6.57s
#32	Inkling high	Thinkingmachines	3.0	8.0	$1.006	0/1	6.52s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 6.52s
#149	Gemini 3.1 Flash Lite high	Google	10.0	5.6	$2.044	1/1	6.44s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 6.44s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	1/1	6.37s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 6.37s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	1/1	6.31s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 6.31s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	1/1	6.30s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 6.30s
#28	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	1/1	6.20s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 6.20s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स