टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Kimi K3 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#131	Qwen3.5-Flash none	Qwen	10.0	6.1	$0.073	1/1	3.67s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 3.67s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 3.70s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	1/1	3.80s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 3.80s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	1/1	3.81s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 3.81s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 3.90s
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	1/1	3.92s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 3.92s
#143	North Mini Code medium	Cohere	10.0	5.9	$0.000	1/1	3.93s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.93s
#122	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	1/1	3.94s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.066 प्रतिसाद वेळ (सरासरी) 3.94s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.738 प्रतिसाद वेळ (सरासरी) 4.00s
#31	Gemini 3.5 Flash-Lite high	Google	10.0	8.1	$0.584	1/1	4.05s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 4.05s
#67	Claude Sonnet 4.6 none	Anthropic	10.0	7.3	$0.661	1/1	4.11s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 4.11s
#33	Step 3.7 Flash medium	Stepfun	10.0	8.0	$0.515	1/1	4.16s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 4.16s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	1/1	4.17s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.477 प्रतिसाद वेळ (सरासरी) 4.17s
#210	Qwen3.5-9B medium	Qwen	10.0	3.8	$0.036	1/1	4.31s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 4.31s
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 4.39s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स