AI BENCHY श्रेणी अपयशे
संयुक्त
अवैध टूल कॉल
संयुक्त
अवैध टूल कॉल
संयुक्त मध्ये कोणत्या AI मॉडेल्सना अवैध टूल कॉल येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.
संबंधित अपयश कारणे
संबंधित श्रेण्या
| क्रमांक | मॉडेल | कंपनी | अवैध टूल कॉल संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #33 | DeepSeek V3.2 none | DeepSeek | 1 | 8.0 | 0/1 | 115.9s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 10.0 | 0/1 | 65.6s |
| #43 | MiniMax M2.5 medium | Minimax | 1 | 10.0 | 0/1 | 60.4s |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 10.0 | 0/1 | 3.22s |