टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Ring-2.6-1T 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#24	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 10.3s
#102	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	1/1	10.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 10.0s
#30	Muse Spark 1.1 high	Meta	9.6	8.1	$1.694	1/1	9.88s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 9.88s
#53	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	1/1	9.84s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 9.84s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 9.76s
#47	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	1/1	9.73s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 9.73s
#60	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 9.62s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	1/1	9.54s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 9.54s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	1/1	9.25s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.817 प्रतिक्रिया समय (औसत) 9.25s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.089 प्रतिक्रिया समय (औसत) 9.01s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	1/1	8.96s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.931 प्रतिक्रिया समय (औसत) 8.96s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	1/1	8.92s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 8.92s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.831 प्रतिक्रिया समय (औसत) 8.55s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	1/1	8.36s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 8.36s
#152	Owl Alpha medium	Openrouter	10.0	5.6	$0.000	1/1	8.26s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 8.26s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल