टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.7

सर्वश्रेष्ठ मॉडल

Kimi K3 3.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

210/210

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#124	Qwen3.6 Flash none	Qwen	10.0	6.1	$0.062	1/1	2.49s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 2.49s
#164	Inkling none	Thinkingmachines	3.0	5.2	$0.147	0/1	2.50s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 2.50s
#174	GPT-4o-mini none	OpenAI	10.0	5.0	$0.010	1/1	2.51s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 2.51s
#123	Inkling low	Thinkingmachines	3.0	6.1	$0.187	0/1	2.57s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 2.57s
#187	Qwen3 Coder Next medium	Qwen	10.0	4.7	$0.032	1/1	2.64s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 2.64s
#139	GPT-5.4 none	OpenAI	10.0	5.8	$0.397	1/1	2.75s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 2.75s
#193	Elephant Alpha none	Openrouter	3.0	4.3	$0.000	0/1	2.79s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.79s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	1/1	2.79s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 2.79s
#86	Step 3.7 Flash high	Stepfun	10.0	6.9	$1.207	1/1	2.79s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 2.79s
#159	GPT-5.6 Luna none	OpenAI	10.0	5.4	$0.142	1/1	2.80s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 2.80s
#195	Elephant Alpha medium	Openrouter	3.0	4.3	$0.000	0/1	2.83s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.83s
#122	Gemini 3.1 Flash Lite none	Google	10.0	6.1	$0.046	1/1	2.97s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 2.97s
#129	Nemotron 3 Ultra none	NVIDIA	10.0	6.1	$0.095	1/1	2.99s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 2.99s
#102	Laguna XS 2.1 medium	Poolside	10.0	6.5	$0.068	1/1	3.01s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 3.01s
#132	GPT-5.6 Terra none	OpenAI	9.6	6.0	$0.349	1/1	3.10s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 3.10s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल