AI BENCHY श्रेणी विफलताएँ
टूल कॉलिंग: अमान्य टूल कॉल
टूल कॉलिंग
अमान्य टूल कॉल
देखें कि टूल कॉलिंग में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।
श्रेणियाँ
| रैंक | मॉडल | कंपनी | अमान्य टूल कॉल संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 7.0 | 0/1 | 12.5s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 4.7 | 0/1 | 3.39s |
| #136 | Elephant Alpha medium | Openrouter | 1 | 3.0 | 0/1 | 2.83s |
| #137 | Elephant Alpha none | Openrouter | 1 | 3.0 | 0/1 | 2.79s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 18.8s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 3.0 | 0/1 | 1.93s |
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 3.0 | 0/1 | 25.7s |