टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.7

सर्वश्रेष्ठ मॉडल

Hy3 preview 2.8

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

210/210

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#209	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 0ms
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 0ms
#21	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 10.3s
#55	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 6.69s
#56	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.756 प्रतिक्रिया समय (औसत) 9.62s
#172	MiniMax M2.7 medium	Minimax	4.7	5.0	$0.163	0/1	12.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 12.0s
#177	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.008	0/1	16.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 16.0s
#198	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 3.39s
#93	GLM 5V Turbo medium	Z.ai	7.0	6.7	$0.457	0/1	12.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 12.5s
#152	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 6.74s
#171	North Mini Code none	Cohere	9.5	5.1	$0.000	1/1	3.64s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.64s
#27	Muse Spark 1.1 high	Meta	9.6	8.1	$1.694	1/1	9.88s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 9.88s
#132	GPT-5.6 Terra none	OpenAI	9.6	6.0	$0.349	1/1	3.10s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 3.10s
#2	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 4.96s
#16	Muse Spark 1.1 medium	Meta	9.8	8.6	$1.357	1/1	6.99s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 6.99s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल