टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.7

सर्वश्रेष्ठ मॉडल

Ring-2.6-1T 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

210/210

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#7	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	1/1	23.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.361 प्रतिक्रिया समय (औसत) 23.1s
#148	Owl Alpha none	Openrouter	10.0	5.6	$0.000	1/1	22.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 22.8s
#38	GLM 5.2 medium	Z.ai	10.0	7.8	$0.222	1/1	20.4s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.222 प्रतिक्रिया समय (औसत) 20.4s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	10.0	6.9	$0.467	1/1	19.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 19.0s
#178	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 18.8s
#26	GPT-5 Mini medium	OpenAI	10.0	8.1	$0.237	1/1	18.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 18.6s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	10.0	7.4	$0.387	1/1	18.4s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 18.4s
#19	Qwen3.6 Max Preview medium	Qwen	10.0	8.4	$1.143	1/1	18.3s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.143 प्रतिक्रिया समय (औसत) 18.3s
#153	Hy3 preview low	Tencent	2.8	5.5	$0.015	0/1	17.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 17.8s
#73	Grok 4.3 medium	X AI	10.0	7.1	$0.779	1/1	17.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 17.7s
#184	Hunter Alpha medium	OpenRouter	10.0	4.7	$0.000	1/1	17.3s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 17.3s
#17	Claude Fable 5 medium	Anthropic	10.0	8.6	$3.478	1/1	17.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 17.0s
#99	Qwen3.6 27B medium	Qwen	10.0	6.5	$0.779	1/1	16.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 16.9s
#84	MiMo-V2.5-Pro medium	Xiaomi	10.0	6.9	$0.187	1/1	16.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 16.9s
#177	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.008	0/1	16.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 16.0s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल