टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Kimi K3 3.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#131	Qwen3.5-Flash none	Qwen	10.0	6.1	$0.073	1/1	3.67s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 3.67s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 3.70s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	1/1	3.80s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 3.80s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	1/1	3.81s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 3.81s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 3.90s
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	1/1	3.92s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 3.92s
#143	North Mini Code medium	Cohere	10.0	5.9	$0.000	1/1	3.93s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.93s
#122	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	1/1	3.94s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 3.94s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 4.00s
#31	Gemini 3.5 Flash-Lite high	Google	10.0	8.1	$0.584	1/1	4.05s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 4.05s
#67	Claude Sonnet 4.6 none	Anthropic	10.0	7.3	$0.661	1/1	4.11s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 4.11s
#33	Step 3.7 Flash medium	Stepfun	10.0	8.0	$0.515	1/1	4.16s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 4.16s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	1/1	4.17s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.477 प्रतिक्रिया समय (औसत) 4.17s
#210	Qwen3.5-9B medium	Qwen	10.0	3.8	$0.036	1/1	4.31s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 4.31s
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 4.39s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल