टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Gemini 3.6 Flash 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 4.39s
#154	Owl Alpha none	Openrouter	10.0	5.6	$0.000	1/1	22.8s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 22.8s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	1/1	4.77s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 4.77s
#156	DeepSeek V4 Flash none	DeepSeek	10.0	5.6	$0.042	1/1	77.9s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 77.9s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 10.7s
#158	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 6.74s
#160	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	$0.068	1/1	3.30s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 3.30s
#161	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.127	1/1	14.0s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 14.0s
#162	Gemma 4 26B A4B none	Google	10.0	5.5	$0.015	1/1	57.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 57.1s
#163	Mimo V2 Omni none	Xiaomi	10.0	5.5	$0.021	1/1	5.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 5.40s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	10.0	5.4	$0.041	1/1	4.47s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 4.47s
#165	GPT-5.6 Luna none	OpenAI	10.0	5.4	$0.142	1/1	2.80s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 2.80s
#166	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.36s
#169	Gemini 3.1 Flash Lite Preview high	Google	10.0	5.3	$2.310	1/1	7.73s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 7.73s
#171	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 1.40s

←

1 9 10 11 15

→

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल