टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Kimi K3 3.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#108	Laguna XS 2.1 medium	Poolside	10.0	6.5	$0.068	1/1	3.01s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 3.01s
#138	GPT-5.6 Terra none	OpenAI	9.6	6.0	$0.349	1/1	3.10s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 3.10s
#71	Step 3.7 Flash low	Stepfun	10.0	7.3	$0.454	1/1	3.25s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 3.25s
#14	Gemini 3.5 Flash low	Google	10.0	8.9	$0.433	1/1	3.27s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 3.27s
#160	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	$0.068	1/1	3.30s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 3.30s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	10.0	6.4	$0.073	1/1	3.33s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 3.33s
#93	Gemini 3 Flash Preview none	Google	10.0	6.8	$0.085	1/1	3.35s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 3.35s
#112	Gemini 3.1 Flash Lite Preview none	Google	10.0	6.4	$0.052	1/1	3.39s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 3.39s
#204	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 3.39s
#186	GPT-5.4 Nano none	OpenAI	10.0	4.8	$0.041	1/1	3.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 3.40s
#173	Mistral Small 4 medium	Mistral	10.0	5.1	$0.096	1/1	3.50s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 3.50s
#126	Gemini 3.1 Flash Lite minimal	Google	10.0	6.1	$0.047	1/1	3.51s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 3.51s
#75	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	1/1	3.54s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 3.54s
#109	Qwen3.5-27B none	Qwen	10.0	6.5	$0.090	1/1	3.54s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 3.54s
#177	North Mini Code none	Cohere	9.5	5.1	$0.000	1/1	3.64s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.64s

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल