टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Ring-2.6-1T 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#137	Grok 4.20 Beta medium	X AI	3.0	6.0	$0.750	0/1	12.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 12.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	1/1	12.4s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 12.4s
#178	MiniMax M2.7 medium	Minimax	4.7	5.0	$0.163	0/1	12.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 12.0s
#139	Gemini 3 PRO Preview medium	Google	10.0	6.0	$0.385	1/1	12.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 12.0s
#51	MiniMax M3 medium	Minimax	10.0	7.6	$0.286	1/1	11.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 11.9s
#136	Step 3.5 Flash medium	Stepfun	10.0	6.0	$0.108	1/1	11.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 11.9s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 11.8s
#194	Cobuddy medium	Baidu	10.0	4.7	$0.000	1/1	11.2s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 11.2s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	1/1	11.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 11.1s
#96	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	1/1	10.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 10.8s
#26	Claude Sonnet 5 medium	Anthropic	10.0	8.3	$0.922	1/1	10.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 10.7s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 10.7s
#64	LongCat 2.0 medium	Meituan	10.0	7.4	$0.478	1/1	10.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 10.7s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	1/1	10.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 10.6s
#120	Qwen3.5-Flash medium	Qwen	10.0	6.2	$0.139	1/1	10.3s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 10.3s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल