AI BENCHY श्रेणी विफलताएँ
टूल कॉलिंग
गलत उत्तर
टूल कॉलिंग
गलत उत्तर
देखें कि टूल कॉलिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
संबंधित विफलता कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #53 | Grok 4.1 Fast none | X AI | 1 | 10.0 | 0/1 | 5.51s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 7.05s |