टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Ring-2.6-1T 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	1/1	3.92s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 3.92s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 3.90s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	1/1	3.81s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 3.81s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	1/1	3.80s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 3.80s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 3.70s
#131	Qwen3.5-Flash none	Qwen	10.0	6.1	$0.073	1/1	3.67s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 3.67s
#177	North Mini Code none	Cohere	9.5	5.1	$0.000	1/1	3.64s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.64s
#75	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	1/1	3.54s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 3.54s
#109	Qwen3.5-27B none	Qwen	10.0	6.5	$0.090	1/1	3.54s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.090 प्रतिसाद वेळ (सरासरी) 3.54s
#126	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	1/1	3.51s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 3.51s
#173	Mistral Small 4 medium	Mistral	10.0	5.1	$0.096	1/1	3.50s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 3.50s
#186	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.041	1/1	3.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 3.40s
#204	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 3.39s
#112	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	1/1	3.39s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 3.39s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 3.35s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स