टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Kimi K3 3.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#151	GLM 5V Turbo none	Z.ai	10.0	5.6	$0.052	1/1	4.86s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 4.86s
#4	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 4.96s
#9	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	1/1	4.96s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 4.96s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	1/1	4.97s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 4.97s
#48	GPT-5.6 Luna high	OpenAI	10.0	7.7	$1.017	1/1	4.98s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 4.98s
#65	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	1/1	4.99s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 4.99s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	1/1	5.09s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 5.09s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	10.0	4.8	$0.067	1/1	5.13s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 5.13s
#103	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	1/1	5.27s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 5.27s
#70	Claude Opus 4.8 none	Anthropic	10.0	7.3	$1.166	1/1	5.35s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 5.35s
#163	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	1/1	5.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 5.40s
#209	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 5.51s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	1/1	5.66s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 5.66s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	1/1	5.71s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 5.71s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	1/1	5.83s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 5.83s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल