टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Kimi K3 3.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	1/1	5.87s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 5.87s
#181	Qwen3.6 Plus Preview medium	Qwen	10.0	4.9	$0.000	1/1	5.87s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 5.87s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10.0	6.7	$0.476	1/1	5.93s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 5.93s
#27	Muse Spark 1.1 low	Meta	9.8	8.3	$0.647	1/1	5.98s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 5.98s
#54	GPT-5.6 Luna medium	OpenAI	10.0	7.6	$0.352	1/1	6.02s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 6.02s
#202	Hunter Alpha none	OpenRouter	10.0	4.2	$0.000	1/1	6.02s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 6.02s
#28	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	1/1	6.20s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 6.20s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	1/1	6.30s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 6.30s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	1/1	6.31s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 6.31s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	1/1	6.37s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 6.37s
#149	Gemini 3.1 Flash Lite high	Google	10.0	5.6	$2.044	1/1	6.44s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 6.44s
#32	Inkling high	Thinkingmachines	3.0	8.0	$1.006	0/1	6.52s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 6.52s
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	1/1	6.57s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 6.57s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	1/1	6.63s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.116 प्रतिक्रिया समय (औसत) 6.63s
#117	LongCat 2.0 none	Meituan	10.0	6.3	$0.044	1/1	6.64s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 6.64s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल