AI BENCHY श्रेणी विफलताएँ
टूल कॉलिंग
गलत उत्तर
टूल कॉलिंग
गलत उत्तर
देखें कि टूल कॉलिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.
संबंधित विफलता कारण
| रैंक | मॉडल | कंपनी | गलत उत्तर संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 7.05s |
| #53 | Grok 4.1 Fast none | X AI | 1 | 10.0 | 0/1 | 5.51s |