AI BENCHY विफलताएँ
अमान्य टूल कॉल विफलताएँ
देखें कि किन AI मॉडलों में अमान्य टूल कॉल सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
संबंधित श्रेणियाँ
| रैंक | मॉडल | कंपनी | अमान्य टूल कॉल संख्या | औसत स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 3.9 | 4/16 | 2.99s |
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 5.5 | 7/16 | 12.9s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 3.1 | 4/16 | 36.8s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 4.7 | 5/16 | 43.0s |