टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

GPT-5.2 4.7

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#204	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 3.39s
#208	Grok Build 0.1 none	X AI	3.0	4.0	$0.547	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 0ms
#209	Grok 4.1 Fast none	X AI	2.8	3.8	$0.008	0/1	5.51s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 5.51s
#211	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 1.93s
#212	gpt-oss-120b none	OpenAI	3.0	3.7	$0.010	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 0ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	3.4	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	3.2	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#215	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 0ms
#216	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 0ms
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.831 प्रतिक्रिया समय (औसत) 8.55s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.785 प्रतिक्रिया समय (औसत) 9.76s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.742 प्रतिक्रिया समय (औसत) 12.6s
#4	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 4.96s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 7.56s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	1/1	4.78s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.517 प्रतिक्रिया समय (औसत) 4.78s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल