टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Ring-2.6-1T 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#200	GLM 4.7 Flash medium	Z.ai	10.0	4.3	$0.166	1/1	15.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 15.9s
#46	GLM 5 medium	Z.ai	10.0	7.7	$0.307	1/1	15.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 15.9s
#50	DeepSeek V4 Pro high	DeepSeek	9.8	7.7	$0.200	1/1	15.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 15.9s
#101	GLM 5.2 none	Z.ai	10.0	6.6	$0.128	1/1	15.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.128 प्रतिक्रिया समय (औसत) 15.8s
#196	MiniMax M2.5 medium	Minimax	10.0	4.6	$0.340	1/1	15.4s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 15.4s
#106	Hy3 preview medium	Tencent	10.0	6.5	$0.018	1/1	15.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 15.0s
#40	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	1/1	15.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.267 प्रतिक्रिया समय (औसत) 15.0s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	10.0	7.2	$0.317	1/1	14.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 14.7s
#161	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.127	1/1	14.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 14.0s
#140	Mimo V2 Omni medium	Xiaomi	10.0	5.9	$0.683	1/1	14.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 14.0s
#79	Grok 4.20 medium	X AI	3.0	7.1	$0.777	0/1	13.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.777 प्रतिक्रिया समय (औसत) 13.7s
#21	GPT-5.4 medium	OpenAI	10.0	8.5	$1.533	1/1	13.3s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 13.3s
#52	Grok Build 0.1 medium	X AI	10.0	7.6	$1.097	1/1	13.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 13.1s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.742 प्रतिक्रिया समय (औसत) 12.6s
#98	GLM 5V Turbo medium	Z.ai	7.0	6.7	$0.457	0/1	12.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 12.5s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल