टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Ring-2.6-1T 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#176	GLM 5 Turbo none	Z.ai	10.0	5.1	$0.047	1/1	8.21s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 8.21s
#115	Mimo V2 PRO medium	Xiaomi	10.0	6.3	$0.333	1/1	8.19s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 8.19s
#169	Gemini 3.1 Flash Lite Preview high	Google	10.0	5.3	$2.310	1/1	7.73s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 7.73s
#55	Nemotron 3 Ultra medium	NVIDIA	10.0	7.5	$0.774	1/1	7.72s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 7.72s
#57	GPT-5.4 Nano medium	OpenAI	10.0	7.5	$0.138	1/1	7.71s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 7.71s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 7.56s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	10.0	7.5	$0.437	1/1	7.54s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.437 प्रतिक्रिया समय (औसत) 7.54s
#198	Laguna M.1 none	Poolside	10.0	4.4	$0.009	1/1	7.54s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 7.54s
#44	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	1/1	7.48s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.057 प्रतिक्रिया समय (औसत) 7.48s
#62	Qwen3.5-27B medium	Qwen	10.0	7.4	$1.627	1/1	7.45s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.627 प्रतिक्रिया समय (औसत) 7.45s
#86	DeepSeek V4 Pro none	DeepSeek	10.0	6.9	$0.096	1/1	7.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 7.40s
#107	MiMo-V2.5 medium	Xiaomi	10.0	6.5	$0.082	1/1	7.29s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 7.29s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	1/1	7.08s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 7.08s
#182	GLM 4.7 Flash none	Z.ai	2.8	4.9	$0.016	0/1	7.05s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 7.05s
#19	Muse Spark 1.1 medium	Meta	9.8	8.6	$1.357	1/1	6.99s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 6.99s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल