टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.7

सर्वश्रेष्ठ मॉडल

GPT-5.2 4.7

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

210/210

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#21	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 10.3s
#28	Inkling high	Thinkingmachines	3.0	8.0	$1.006	0/1	6.52s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 6.52s
#32	Inkling medium	Thinkingmachines	3.0	8.0	$0.391	0/1	4.48s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 4.48s
#33	Kimi K3 max	Moonshot AI	3.0	8.0	$3.112	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	3.0	7.5	$0.751	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.751 प्रतिक्रिया समय (औसत) 0ms
#55	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 6.69s
#56	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 9.62s
#74	GLM 5.1 medium	Z.ai	3.0	7.1	$0.535	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 0ms
#75	Grok 4.20 medium	X AI	3.0	7.1	$0.777	0/1	13.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 13.7s
#79	Gemini 3.5 Flash none	Google	3.0	7.0	$1.079	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	3.0	6.7	$0.746	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 0ms
#93	GLM 5V Turbo medium	Z.ai	7.0	6.7	$0.457	0/1	12.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 12.5s
#110	Gemma 4 31B medium	Google	3.0	6.3	$0.163	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 0ms
#115	Gemma 4 31B none	Google	3.0	6.2	$0.035	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.035 प्रतिक्रिया समय (औसत) 0ms
#123	Inkling low	Thinkingmachines	3.0	6.1	$0.187	0/1	2.57s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 2.57s

1 2 14

→

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल