AI BENCHY श्रेणी विफलताएँ
संयुक्त
अमान्य टूल कॉल
संयुक्त
अमान्य टूल कॉल
देखें कि संयुक्त में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
संबंधित विफलता कारण
संबंधित श्रेणियाँ
| रैंक | मॉडल | कंपनी | अमान्य टूल कॉल संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 3.22s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 10.0 | 0/1 | 60.4s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 10.0 | 0/1 | 65.6s |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 8.0 | 0/1 | 115.9s |