टूल कॉलिंग मॉडल रैंकिंग

देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत टूल कॉलिंग स्कोर

8.8

सर्वश्रेष्ठ मॉडल

Ring-2.6-1T 10.0

विफलता के कारण

विफलता कारण API त्रुटि के साथ17 विफलता कारण अमान्य टूल कॉल के साथ9 विफलता कारण निर्देशों का पालन नहीं किया के साथ8 विफलता कारण गलत उत्तर के साथ3 विफलता कारण कोई उत्तर नहीं के साथ2

216/216

रैंक	मॉडल	कंपनी	टूल कॉलिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#69	Gemini 3.1 Flash Lite medium	Google	10.0	7.3	$0.117	1/1	4.55s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 4.55s
#36	Inkling medium	Thinkingmachines	3.0	8.0	$0.391	0/1	4.48s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 4.48s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	10.0	5.4	$0.041	1/1	4.47s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 4.47s
#144	Kimi K2.6 none	Moonshot AI	10.0	5.8	$0.184	1/1	4.46s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 4.46s
#123	GPT-5.6 Luna low	OpenAI	10.0	6.2	$0.249	1/1	4.43s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 4.43s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	10.0	6.1	$0.122	1/1	4.42s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 4.42s
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 4.39s
#210	Qwen3.5-9B medium	Qwen	10.0	3.8	$0.036	1/1	4.31s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 4.31s
#18	Claude Opus 4.7 medium	Anthropic	10.0	8.7	$1.477	1/1	4.17s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $1.477 प्रतिक्रिया समय (औसत) 4.17s
#33	Step 3.7 Flash medium	Stepfun	10.0	8.0	$0.515	1/1	4.16s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 4.16s
#67	Claude Sonnet 4.6 none	Anthropic	10.0	7.3	$0.661	1/1	4.11s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 4.11s
#31	Gemini 3.5 Flash-Lite high	Google	10.0	8.1	$0.584	1/1	4.05s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 4.05s
#89	Qwen3.6 Flash medium	Qwen	10.0	6.9	$0.738	1/1	4.00s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 4.00s
#122	Seed-2.0-Lite none	Bytedance Seed	10.0	6.2	$0.066	1/1	3.94s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 3.94s
#143	North Mini Code medium	Cohere	10.0	5.9	$0.000	1/1	3.93s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.93s

←

1 9 10 11 15

→

टूल कॉलिंग रैंकिंग

मॉडल फ़िल्टर करें

टूल कॉलिंग स्कोर के अनुसार शीर्ष मॉडल

टूल कॉलिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल