AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी विफलताएँ

टूल कॉलिंग: अमान्य टूल कॉल

टूल कॉलिंग
अमान्य टूल कॉल

देखें कि टूल कॉलिंग में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

7

कुल विफलताएँ

7

सबसे अधिक प्रभावित मॉडल

Ling-2.6-1T 1
रैंक मॉडल कंपनी अमान्य टूल कॉल संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#159 Ling-2.6-1T none Inclusionai 1 3.0 0/1 25.7s
#138 Ling-2.6-flash none Inclusionai 1 3.0 0/1 18.8s
#59 GLM 5V Turbo medium Z.ai 1 7.0 0/1 12.5s
#107 Laguna Xs.2 medium Poolside 1 4.7 0/1 3.39s
#136 Elephant Alpha medium Openrouter 1 3.0 0/1 2.83s
#137 Elephant Alpha none Openrouter 1 3.0 0/1 2.79s
#146 Laguna Xs.2 none Poolside 1 3.0 0/1 1.93s

अमान्य टूल कॉल संख्या के अनुसार शीर्ष मॉडल

अमान्य टूल कॉल संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल