टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.7

सर्वश्रेष्ठ मॉडल

Hy3 preview 2.8

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

210/210

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#131	Grok 4.20 Beta medium	X AI	3.0	6.0	$0.750	0/1	12.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 12.4s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 2.32s
#161	Qwen3.6 35B A3B none	Qwen	3.0	5.3	$0.061	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 0ms
#162	Ling-2.6-1T none	Inclusionai	3.0	5.3	$0.016	0/1	25.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 25.7s
#164	Inkling none	Thinkingmachines	3.0	5.2	$0.147	0/1	2.50s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 2.50s
#178	Ling-2.6-flash none	Inclusionai	3.0	4.9	$0.002	0/1	18.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 18.8s
#179	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	3.0	4.8	$5.599	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 0ms
#193	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/1	2.79s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.79s
#195	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/1	2.83s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.83s
#202	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 0ms
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 1.93s
#206	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल