टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Kimi K3 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह4 अयशस्वी होण्याचे कारण उत्तर नाही सह2

220/220

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#166	GPT-5.6 Luna none	OpenAI	10.0	5.4	$0.142	1/1	2.80s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 2.80s
#205	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/1	2.83s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.83s
#128	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	1/1	2.97s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 2.97s
#135	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	1/1	2.99s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 2.99s
#108	Laguna XS 2.1 medium	Poolside	10.0	6.5	$0.068	1/1	3.01s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 3.01s
#138	GPT-5.6 Terra none	OpenAI	9.6	6.0	$0.349	1/1	3.10s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 3.10s
#71	Step 3.7 Flash low	Stepfun	10.0	7.3	$0.454	1/1	3.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 3.25s
#14	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	1/1	3.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 3.27s
#160	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	$0.068	1/1	3.30s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 3.30s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	1/1	3.33s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 3.33s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 3.35s
#112	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	1/1	3.39s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 3.39s
#208	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 3.39s
#189	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.041	1/1	3.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 3.40s
#175	Mistral Small 4 medium	Mistral	10.0	5.1	$0.096	1/1	3.50s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 3.50s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स