टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#188	KAT-Coder-Air V2.5 none	Kwaipilot	10.0	4.8	$0.067	1/1	5.13s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 5.13s
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	1/1	6.67s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 6.67s
#190	Hunter Alpha medium	OpenRouter	10.0	4.7	$0.000	1/1	17.3s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 17.3s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	1/1	6.31s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 6.31s
#193	Qwen3 Coder Next medium	Qwen	10.0	4.7	$0.032	1/1	2.64s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 2.64s
#194	Cobuddy medium	Baidu	10.0	4.7	$0.000	1/1	11.2s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 11.2s
#195	Mercury 2 none	Inception	10.0	4.6	$0.030	1/1	1.27s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 1.27s
#196	MiniMax M2.5 medium	Minimax	10.0	4.6	$0.340	1/1	15.4s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 15.4s
#197	Grok 4.20 Beta none	X AI	10.0	4.4	$0.087	1/1	4.79s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 4.79s
#198	Laguna M.1 none	Poolside	10.0	4.4	$0.009	1/1	7.54s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 7.54s
#200	GLM 4.7 Flash medium	Z.ai	10.0	4.3	$0.166	1/1	15.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 15.9s
#202	Hunter Alpha none	OpenRouter	10.0	4.2	$0.000	1/1	6.02s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 6.02s
#203	Grok 4.20 none	X AI	10.0	4.1	$0.057	1/1	4.63s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 4.63s
#205	Hy3 preview none	Tencent	10.0	4.0	$0.003	1/1	33.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 33.8s
#206	MiMo-V2-Flash none	Xiaomi	10.0	4.0	$0.025	1/1	2.28s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.28s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल