AI BENCHY श्रेणी विफलताएँ
टूल कॉलिंग: अमान्य टूल कॉल
टूल कॉलिंग
अमान्य टूल कॉल
देखें कि टूल कॉलिंग में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
श्रेणियाँ
| रैंक | मॉडल | कंपनी | अमान्य टूल कॉल संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 3.0 | 0/1 | 25.7s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 18.8s |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 7.0 | 0/1 | 12.5s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 4.7 | 0/1 | 3.39s |
| #136 | Elephant Alpha medium | Openrouter | 1 | 3.0 | 0/1 | 2.83s |
| #137 | Elephant Alpha none | Openrouter | 1 | 3.0 | 0/1 | 2.79s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 3.0 | 0/1 | 1.93s |