टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Kimi K3 3.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	1/1	9.73s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 9.73s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 9.76s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	1/1	9.84s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 9.84s
#30	Muse Spark 1.1 high	Meta	9.6	8.1	$1.694	1/1	9.88s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 9.88s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 10.0s
#24	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 10.3s
#120	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	1/1	10.3s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 10.3s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	1/1	10.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 10.6s
#64	LongCat 2.0 medium	Meituan	10.0	7.4	$0.478	1/1	10.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 10.7s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 10.7s
#26	Claude Sonnet 5 medium	Anthropic	10.0	8.3	$0.922	1/1	10.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 10.7s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 10.8s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	1/1	11.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 11.1s
#194	Cobuddy medium	Baidu	10.0	4.7	$0.000	1/1	11.2s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 11.2s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 11.8s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल