AI BENCHY श्रेणी अपयशे
संयुक्त
अवैध टूल कॉल
संयुक्त
अवैध टूल कॉल
संयुक्त मध्ये कोणत्या AI मॉडेल्सना अवैध टूल कॉल येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: अपयशांची संख्या ↑.
संबंधित अपयश कारणे
संबंधित श्रेण्या
| क्रमांक | मॉडेल | कंपनी | अवैध टूल कॉल संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 8.0 | 0/1 | 115.9s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 10.0 | 0/1 | 60.4s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 3.22s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 10.0 | 0/1 | 65.6s |