AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी विफलताएँ

टूल कॉलिंग: अमान्य टूल कॉल

टूल कॉलिंग
अमान्य टूल कॉल

देखें कि टूल कॉलिंग में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

7

कुल विफलताएँ

7

सबसे अधिक प्रभावित मॉडल

GLM 5V Turbo 1
रैंक मॉडल कंपनी अमान्य टूल कॉल संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#59 GLM 5V Turbo medium Z.ai 1 7.0 0/1 12.5s
#107 Laguna Xs.2 medium Poolside 1 4.7 0/1 3.39s
#136 Elephant Alpha medium Openrouter 1 3.0 0/1 2.83s
#137 Elephant Alpha none Openrouter 1 3.0 0/1 2.79s
#138 Ling-2.6-flash none Inclusionai 1 3.0 0/1 18.8s
#146 Laguna Xs.2 none Poolside 1 3.0 0/1 1.93s
#159 Ling-2.6-1T none Inclusionai 1 3.0 0/1 25.7s

अमान्य टूल कॉल संख्या के अनुसार शीर्ष मॉडल

अमान्य टूल कॉल संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल