टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#163	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	1/1	5.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 5.40s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	10.0	5.4	$0.041	1/1	4.47s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 4.47s
#165	GPT-5.6 Luna none	OpenAI	10.0	5.4	$0.142	1/1	2.80s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 2.80s
#166	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.36s
#169	Gemini 3.1 Flash Lite Preview high	Google	10.0	5.3	$2.310	1/1	7.73s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 7.73s
#171	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 1.40s
#172	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.47s
#173	Mistral Small 4 medium	Mistral	10.0	5.1	$0.096	1/1	3.50s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 3.50s
#174	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.43s
#175	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 1.27s
#176	GLM 5 Turbo none	Z.ai	10.0	5.1	$0.047	1/1	8.21s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 8.21s
#179	DeepSeek V3.2 none	DeepSeek	10.0	5.0	$0.054	1/1	11.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 11.8s
#180	GPT-4o-mini none	OpenAI	10.0	5.0	$0.010	1/1	2.51s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 2.51s
#181	Qwen3.6 Plus Preview medium	Qwen	10.0	4.9	$0.000	1/1	5.87s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 5.87s
#186	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.041	1/1	3.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 3.40s

←

1 9 10 11 15

→

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल