टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	1/1	7.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 7.40s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 3.70s
#88	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	1/1	16.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 16.9s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.738 प्रतिसाद वेळ (सरासरी) 4.00s
#90	Step 3.7 Flash high	Stepfun	10.0	6.9	$1.207	1/1	2.79s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.207 प्रतिसाद वेळ (सरासरी) 2.79s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 3.90s
#92	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	1/1	2.79s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.300 प्रतिसाद वेळ (सरासरी) 2.79s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 3.35s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	1/1	1.76s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.145 प्रतिसाद वेळ (सरासरी) 1.76s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 10.8s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10.0	6.7	$0.476	1/1	5.93s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 5.93s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	1/1	4.74s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.505 प्रतिसाद वेळ (सरासरी) 4.74s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.089 प्रतिसाद वेळ (सरासरी) 9.01s
#101	GLM 5.2 none	Z.ai	10.0	6.6	$0.128	1/1	15.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.128 प्रतिसाद वेळ (सरासरी) 15.8s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 10.0s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स