टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#172	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.47s
#173	Mistral Small 4 medium	Mistral	10.0	5.1	$0.096	1/1	3.50s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 3.50s
#174	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.43s
#175	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 1.27s
#176	GLM 5 Turbo none	Z.ai	10.0	5.1	$0.047	1/1	8.21s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 8.21s
#177	North Mini Code none	Cohere	9.5	5.1	$0.000	1/1	3.64s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.64s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 11.8s
#180	GPT-4o-mini none	OpenAI	10.0	5.0	$0.010	1/1	2.51s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 2.51s
#181	Qwen3.6 Plus Preview medium	Qwen	10.0	4.9	$0.000	1/1	5.87s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 5.87s
#186	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.041	1/1	3.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 3.40s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	10.0	4.8	$0.067	1/1	5.13s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 5.13s
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	1/1	6.67s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 6.67s
#190	Hunter Alpha medium	OpenRouter	10.0	4.7	$0.000	1/1	17.3s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 17.3s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	1/1	6.31s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 6.31s
#193	Qwen3 Coder Next medium	Qwen	10.0	4.7	$0.032	1/1	2.64s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 2.64s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल