टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.7

सर्वोत्तम मॉडेल

Gemini 3 Flash Preview 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

210/210

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.742 प्रतिसाद वेळ (सरासरी) 12.6s
#2	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.976 प्रतिसाद वेळ (सरासरी) 4.96s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 7.56s
#4	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	1/1	6.30s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 6.30s
#5	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	1/1	7.08s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 7.08s
#6	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	1/1	4.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.253 प्रतिसाद वेळ (सरासरी) 4.96s
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	1/1	23.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.361 प्रतिसाद वेळ (सरासरी) 23.1s
#8	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	1/1	6.63s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.116 प्रतिसाद वेळ (सरासरी) 6.63s
#9	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	1/1	3.81s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 3.81s
#10	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	1/1	10.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 10.6s
#11	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	1/1	3.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 3.27s
#12	Grok 4.5 high	X AI	10.0	8.9	$1.707	1/1	5.71s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 5.71s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	1/1	6.37s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 6.37s
#14	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	1/1	8.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 8.96s
#15	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	1/1	4.17s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $1.477 प्रतिसाद वेळ (सरासरी) 4.17s

1 2 14

→

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स