AI BENCHY श्रेणी विफलताएँ
टूल कॉलिंग: गलत उत्तर
टूल कॉलिंग
गलत उत्तर
देखें कि टूल कॉलिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 2.8 | 0/1 | 7.05s |
| #95 | Grok 4.1 Fast none | X AI | 1 | 2.8 | 0/1 | 5.51s |