टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह4 अयशस्वी होण्याचे कारण उत्तर नाही सह2

220/220

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#50	DeepSeek V4 Pro high	DeepSeek	9.8	7.7	$0.200	1/1	15.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 15.9s
#51	MiniMax M3 medium	Minimax	10.0	7.6	$0.286	1/1	11.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 11.9s
#52	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	1/1	13.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 13.1s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	1/1	9.84s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 9.84s
#54	GPT-5.6 Luna medium	OpenAI	10.0	7.6	$0.352	1/1	6.02s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 6.02s
#55	Nemotron 3 Ultra medium	NVIDIA	10.0	7.5	$0.774	1/1	7.72s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.774 प्रतिसाद वेळ (सरासरी) 7.72s
#57	GPT-5.4 Nano medium	OpenAI	10.0	7.5	$0.138	1/1	7.71s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 7.71s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	1/1	8.36s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 8.36s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	1/1	7.54s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 7.54s
#62	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	1/1	7.45s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 7.45s
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	1/1	3.92s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 3.92s
#64	LongCat 2.0 medium	Meituan	10.0	7.4	$0.478	1/1	10.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 10.7s
#65	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	1/1	4.99s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 4.99s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	1/1	18.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 18.4s
#67	Claude Sonnet 4.6 none	Anthropic	10.0	7.3	$0.661	1/1	4.11s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 4.11s

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स