टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Kimi K3 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

210/210

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 0ms
#189	Mercury 2 none	Inception	10.0	4.6	$0.030	1/1	1.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 1.27s
#169	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 1.27s
#160	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.36s
#165	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 1.40s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.89s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	1/1	1.91s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 1.91s
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 1.93s
#142	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 2.04s
#201	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.007	1/1	2.17s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 2.17s
#200	MiMo-V2-Flash none	Xiaomi	10.0	4.0	$0.025	1/1	2.28s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.28s
#127	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 2.30s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 2.32s
#168	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.43s
#166	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.47s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स