टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Ring-2.6-1T 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#65	Gemini 3 Flash Preview low	Google	10.0	7.4	$0.177	1/1	4.99s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 4.99s
#48	GPT-5.6 Luna high	OpenAI	10.0	7.7	$1.017	1/1	4.98s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 4.98s
#38	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	1/1	4.97s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 4.97s
#9	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	1/1	4.96s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 4.96s
#4	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 4.96s
#151	GLM 5V Turbo none	Z.ai	10.0	5.6	$0.052	1/1	4.86s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 4.86s
#197	Grok 4.20 Beta none	X AI	10.0	4.4	$0.087	1/1	4.79s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 4.79s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	1/1	4.78s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.517 प्रतिक्रिया समय (औसत) 4.78s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	10.0	5.6	$0.077	1/1	4.77s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 4.77s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	1/1	4.77s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 4.77s
#99	Claude Opus 4.7 none	Anthropic	10.0	6.6	$0.505	1/1	4.74s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 4.74s
#34	GPT-5.2 Chat none	OpenAI	10.0	8.0	$0.604	1/1	4.68s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 4.68s
#125	Qwen3.5-35B-A3B medium	Qwen	10.0	6.2	$0.837	1/1	4.65s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.837 प्रतिक्रिया समय (औसत) 4.65s
#203	Grok 4.20 none	X AI	10.0	4.1	$0.057	1/1	4.63s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 4.63s
#76	Qwen3.5-122B-A10B medium	Qwen	10.0	7.1	$1.046	1/1	4.60s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.046 प्रतिक्रिया समय (औसत) 4.60s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल