टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Ring-2.6-1T 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#63	Qwen3.7 Max none	Qwen	10.0	7.4	$0.197	1/1	3.92s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 3.92s
#91	GPT-5.5 none	OpenAI	10.0	6.9	$0.544	1/1	3.90s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 3.90s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	1/1	3.81s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 3.81s
#68	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.3	$0.115	1/1	3.80s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 3.80s
#87	GPT-5.6 Sol none	OpenAI	10.0	6.9	$0.524	1/1	3.70s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 3.70s
#131	Qwen3.5-Flash none	Qwen	10.0	6.1	$0.073	1/1	3.67s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 3.67s
#177	North Mini Code none	Cohere	9.5	5.1	$0.000	1/1	3.64s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.64s
#75	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	1/1	3.54s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 3.54s
#109	Qwen3.5-27B none	Qwen	10.0	6.5	$0.090	1/1	3.54s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 3.54s
#126	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	1/1	3.51s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 3.51s
#173	Mistral Small 4 medium	Mistral	10.0	5.1	$0.096	1/1	3.50s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 3.50s
#186	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.041	1/1	3.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 3.40s
#204	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 3.39s
#112	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	1/1	3.39s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 3.39s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 3.35s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल