टूल कॉलिंग मॉडेल क्रमवारी

टूल कॉलिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी टूल कॉलिंग स्कोअर

8.8

सर्वोत्तम मॉडेल

Gemini 3.6 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण API त्रुटी सह17 अयशस्वी होण्याचे कारण अवैध टूल कॉल सह9 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह8 अयशस्वी होण्याचे कारण चुकीचे उत्तर सह3 अयशस्वी होण्याचे कारण उत्तर नाही सह2

216/216

क्रमांक	मॉडेल	कंपनी	टूल कॉलिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 4.39s
#154	Owl Alpha none	Openrouter	10.0	5.6	$0.000	1/1	22.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 22.8s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	1/1	4.77s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 4.77s
#156	DeepSeek V4 Flash none	DeepSeek	10.0	5.6	$0.042	1/1	77.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 77.9s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.164 प्रतिसाद वेळ (सरासरी) 10.7s
#158	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 6.74s
#160	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	$0.068	1/1	3.30s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 3.30s
#161	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.127	1/1	14.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 14.0s
#162	Gemma 4 26B A4B none	Google	10.0	5.5	$0.015	1/1	57.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 57.1s
#163	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	1/1	5.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 5.40s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	10.0	5.4	$0.041	1/1	4.47s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 4.47s
#165	GPT-5.6 Luna none	OpenAI	10.0	5.4	$0.142	1/1	2.80s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 2.80s
#166	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.36s
#169	Gemini 3.1 Flash Lite Preview high	Google	10.0	5.3	$2.310	1/1	7.73s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.310 प्रतिसाद वेळ (सरासरी) 7.73s
#171	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 1.40s

←

1 9 10 11 15

→

टूल कॉलिंग क्रमवारी

मॉडेल फिल्टर करा

टूल कॉलिंग स्कोअर नुसार शीर्ष मॉडेल्स

टूल कॉलिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स