टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.7

सर्वश्रेष्ठ मॉडल

Hy3 preview 2.8

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

210/210

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#153	Hy3 preview low	Tencent	2.8	5.5	$0.015	0/1	17.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 17.8s
#176	GLM 4.7 Flash none	Z.ai	2.8	4.9	$0.016	0/1	7.05s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 7.05s
#185	Grok 4.1 Fast medium	X AI	2.8	4.7	$0.069	0/1	27.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 27.7s
#203	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 5.51s
#28	Inkling high	Thinkingmachines	3.0	8.0	$1.006	0/1	6.52s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 6.52s
#32	Inkling medium	Thinkingmachines	3.0	8.0	$0.391	0/1	4.48s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 4.48s
#33	Kimi K3 max	Moonshot AI	3.0	8.0	$3.112	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	3.0	7.5	$0.751	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.751 प्रतिक्रिया समय (औसत) 0ms
#74	GLM 5.1 medium	Z.ai	3.0	7.1	$0.535	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 0ms
#75	Grok 4.20 medium	X AI	3.0	7.1	$0.777	0/1	13.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 13.7s
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 0ms
#110	Gemma 4 31B medium	Google	3.0	6.3	$0.163	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 0ms
#115	Gemma 4 31B none	Google	3.0	6.2	$0.035	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.035 प्रतिक्रिया समय (औसत) 0ms
#123	Inkling low	Thinkingmachines	3.0	6.1	$0.187	0/1	2.57s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 2.57s

1 2 14

→

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल