AI BENCHY विफलताएँ
अमान्य टूल कॉल विफलताएँ
देखें कि किन AI मॉडलों में अमान्य टूल कॉल सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.
संबंधित श्रेणियाँ
| रैंक | मॉडल | कंपनी | अमान्य टूल कॉल संख्या | औसत स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.5 | 7/16 | 12.9s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 4.7 | 5/16 | 43.0s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 3.9 | 4/16 | 2.99s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 3.1 | 4/16 | 36.8s |