टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#146	Nemotron 3 Super medium	NVIDIA	10.0	5.7	$0.055	1/1	39.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.055 प्रतिक्रिया समय (औसत) 39.7s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	1/1	11.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 11.1s
#148	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 2.04s
#149	Gemini 3.1 Flash Lite high	Google	10.0	5.6	$2.044	1/1	6.44s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 6.44s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	10.0	5.6	$0.077	1/1	4.77s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 4.77s
#151	GLM 5V Turbo none	Z.ai	10.0	5.6	$0.052	1/1	4.86s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 4.86s
#152	Owl Alpha medium	Openrouter	10.0	5.6	$0.000	1/1	8.26s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 8.26s
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 4.39s
#154	Owl Alpha none	Openrouter	10.0	5.6	$0.000	1/1	22.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 22.8s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	1/1	4.77s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 4.77s
#156	DeepSeek V4 Flash none	DeepSeek	10.0	5.6	$0.042	1/1	77.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 77.9s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 10.7s
#160	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	$0.068	1/1	3.30s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 3.30s
#161	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.127	1/1	14.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 14.0s
#162	Gemma 4 26B A4B none	Google	10.0	5.5	$0.015	1/1	57.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 57.1s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल