AI BENCHY
Advertise here

AI BENCHY श्रेणी विफलताएँ

टूल कॉलिंग: अमान्य टूल कॉल

टूल कॉलिंग
अमान्य टूल कॉल

देखें कि टूल कॉलिंग में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

7

कुल विफलताएँ

7

सबसे अधिक प्रभावित मॉडल

Laguna Xs.2 1
रैंक मॉडल कंपनी अमान्य टूल कॉल संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#146 Laguna Xs.2 none Poolside 1 3.0 0/1 1.93s
#137 Elephant Alpha none Openrouter 1 3.0 0/1 2.79s
#136 Elephant Alpha medium Openrouter 1 3.0 0/1 2.83s
#107 Laguna Xs.2 medium Poolside 1 4.7 0/1 3.39s
#59 GLM 5V Turbo medium Z.ai 1 7.0 0/1 12.5s
#138 Ling-2.6-flash none Inclusionai 1 3.0 0/1 18.8s
#159 Ling-2.6-1T none Inclusionai 1 3.0 0/1 25.7s

अमान्य टूल कॉल संख्या के अनुसार शीर्ष मॉडल

अमान्य टूल कॉल संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल