AI BENCHY श्रेणी विफलताएँ
टूल कॉलिंग: अमान्य टूल कॉल
टूल कॉलिंग
अमान्य टूल कॉल
देखें कि टूल कॉलिंग में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
श्रेणियाँ
| रैंक | मॉडल | कंपनी | अमान्य टूल कॉल संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #146 | Laguna Xs.2 none | Poolside | 1 | 3.0 | 0/1 | 1.93s |
| #137 | Elephant Alpha none | Openrouter | 1 | 3.0 | 0/1 | 2.79s |
| #136 | Elephant Alpha medium | Openrouter | 1 | 3.0 | 0/1 | 2.83s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 4.7 | 0/1 | 3.39s |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 7.0 | 0/1 | 12.5s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 18.8s |
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 3.0 | 0/1 | 25.7s |