टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Ring-2.6-1T 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#202	Hunter Alpha none	OpenRouter	10.0	4.2	$0.000	1/1	6.02s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 6.02s
#54	GPT-5.6 Luna medium	OpenAI	10.0	7.6	$0.352	1/1	6.02s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 6.02s
#27	Muse Spark 1.1 low	Meta	9.8	8.3	$0.647	1/1	5.98s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 5.98s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10.0	6.7	$0.476	1/1	5.93s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 5.93s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	1/1	5.87s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 5.87s
#181	Qwen3.6 Plus Preview medium	Qwen	10.0	4.9	$0.000	1/1	5.87s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 5.87s
#23	Grok 4.5 low	X AI	10.0	8.4	$0.935	1/1	5.83s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 5.83s
#15	Grok 4.5 high	X AI	10.0	8.9	$1.707	1/1	5.71s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 5.71s
#111	Gemini 3.1 Flash Lite low	Google	10.0	6.5	$0.621	1/1	5.66s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 5.66s
#209	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 5.51s
#163	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	1/1	5.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 5.40s
#70	Claude Opus 4.8 none	Anthropic	10.0	7.3	$1.166	1/1	5.35s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 5.35s
#103	Qwen3.6 Max Preview none	Qwen	10.0	6.6	$0.231	1/1	5.27s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 5.27s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	10.0	4.8	$0.067	1/1	5.13s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 5.13s
#43	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	1/1	5.09s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 5.09s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल