AI BENCHY श्रेणी विफलताएँ
टूल कॉलिंग: गलत उत्तर
टूल कॉलिंग
गलत उत्तर
देखें कि टूल कॉलिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #95 | Grok 4.1 Fast none | X AI | 1 | 2.8 | 0/1 | 5.51s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 2.8 | 0/1 | 7.05s |