टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.7

सर्वश्रेष्ठ मॉडल

Kimi K3 3.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

210/210

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 0ms
#189	Mercury 2 none	Inception	10.0	4.6	$0.030	1/1	1.27s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 1.27s
#169	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 1.27s
#160	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.36s
#165	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 1.40s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 1.89s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	1/1	1.91s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 1.91s
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 1.93s
#142	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 2.04s
#201	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.007	1/1	2.17s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 2.17s
#200	MiMo-V2-Flash none	Xiaomi	10.0	4.0	$0.025	1/1	2.28s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.28s
#127	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 2.30s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 2.32s
#168	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.43s
#166	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.47s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल