AI BENCHY श्रेणी अपयशे
संयुक्त: अवैध टूल कॉल
संयुक्त
अवैध टूल कॉल
संयुक्त मध्ये कोणत्या AI मॉडेल्सना अवैध टूल कॉल येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.
अयशस्वी होण्याची कारणे
श्रेणी
| क्रमांक | मॉडेल | कंपनी | अवैध टूल कॉल संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #31 | GLM 5V Turbo medium | Z.ai | 1 | 6.9 | 0/1 | 15.1s |
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 6.5 | 0/1 | 115.9s |
| #71 | MiniMax M2.5 medium | Minimax | 1 | 4.5 | 0/1 | 60.4s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 3.22s |
| #75 | GLM 5.1 none | Z.ai | 1 | 2.8 | 0/1 | 32.6s |
| #79 | Grok 4.20 Beta none | X AI | 1 | 3.0 | 0/1 | 6.48s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 41.0s |
| #82 | Grok 4.20 none | X AI | 1 | 3.0 | 0/1 | 6.04s |
| #90 | Qwen3.5-9B none | Qwen | 1 | 3.0 | 0/1 | 5.91s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 2.8 | 0/1 | 65.6s |