टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Ring-2.6-1T 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#127	gpt-oss-120b medium	OpenAI	9.8	6.1	$0.019	1/1	6.91s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 6.91s
#45	Claude Opus 4.8 low	Anthropic	10.0	7.8	$2.077	1/1	6.85s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 6.85s
#118	Claude Sonnet 5 none	Anthropic	10.0	6.3	$0.548	1/1	6.80s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 6.80s
#158	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 6.74s
#59	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 6.69s
#189	Trinity Large Preview none	Arcee AI	10.0	4.8	$0.008	1/1	6.67s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 6.67s
#117	LongCat 2.0 none	Meituan	10.0	6.3	$0.044	1/1	6.64s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 6.64s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	1/1	6.63s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.116 प्रतिक्रिया समय (औसत) 6.63s
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	1/1	6.57s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 6.57s
#32	Inkling high	Thinkingmachines	3.0	8.0	$1.006	0/1	6.52s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 6.52s
#149	Gemini 3.1 Flash Lite high	Google	10.0	5.6	$2.044	1/1	6.44s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 6.44s
#16	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.920	1/1	6.37s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 6.37s
#192	Laguna M.1 medium	Poolside	10.0	4.7	$0.033	1/1	6.31s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 6.31s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	1/1	6.30s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 6.30s
#28	Gemini 2.5 Flash medium	Google	10.0	8.2	$0.643	1/1	6.20s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 6.20s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल