टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

GPT-5.2 4.7

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#57	GPT-5.4 Nano medium	OpenAI	10.0	7.5	$0.138	1/1	7.71s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 7.71s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	1/1	8.36s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 8.36s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	1/1	7.54s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 7.54s
#62	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	1/1	7.45s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 7.45s
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	1/1	3.92s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 3.92s
#64	LongCat 2.0 medium	Meituan	10.0	7.4	$0.478	1/1	10.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 10.7s
#65	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	1/1	4.99s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 4.99s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	1/1	18.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 18.4s
#67	Claude Sonnet 4.6 none	Anthropic	10.0	7.3	$0.661	1/1	4.11s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 4.11s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	1/1	3.80s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 3.80s
#69	Gemini 3.1 Flash Lite medium	Google	10.0	7.3	$0.117	1/1	4.55s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 4.55s
#70	Claude Opus 4.8 none	Anthropic	10.0	7.3	$1.166	1/1	5.35s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 5.35s
#71	Step 3.7 Flash low	Stepfun	10.0	7.3	$0.454	1/1	3.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 3.25s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	1/1	8.92s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 8.92s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10.0	7.2	$0.482	1/1	28.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 28.0s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स