टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Kimi K3 3.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 7.56s
#57	GPT-5.4 Nano medium	OpenAI	10.0	7.5	$0.138	1/1	7.71s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 7.71s
#55	Nemotron 3 Ultra medium	NVIDIA	10.0	7.5	$0.774	1/1	7.72s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.774 प्रतिक्रिया समय (औसत) 7.72s
#169	Gemini 3.1 Flash Lite Preview high	Google	10.0	5.3	$2.310	1/1	7.73s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 7.73s
#115	Mimo V2 PRO medium	Xiaomi	10.0	6.3	$0.333	1/1	8.19s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 8.19s
#176	GLM 5 Turbo none	Z.ai	10.0	5.1	$0.047	1/1	8.21s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 8.21s
#152	Owl Alpha medium	Openrouter	10.0	5.6	$0.000	1/1	8.26s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 8.26s
#58	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	1/1	8.36s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 8.36s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.831 प्रतिक्रिया समय (औसत) 8.55s
#72	Kimi K2.6 medium	Moonshot AI	10.0	7.2	$1.036	1/1	8.92s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.036 प्रतिक्रिया समय (औसत) 8.92s
#17	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.931	1/1	8.96s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.931 प्रतिक्रिया समय (औसत) 8.96s
#100	Gemma 4 26B A4B medium	Google	10.0	6.6	$0.089	1/1	9.01s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.089 प्रतिक्रिया समय (औसत) 9.01s
#35	GLM 5.2 high	Z.ai	10.0	8.0	$0.817	1/1	9.25s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.817 प्रतिक्रिया समय (औसत) 9.25s
#110	Gemini 3.1 Flash Lite Preview low	Google	10.0	6.5	$0.646	1/1	9.54s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 9.54s
#60	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 9.62s

←

1 9 10 11 15

→

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल