AI BENCHY श्रेणी अपयशे
संयुक्त: अवैध टूल कॉल
संयुक्त
अवैध टूल कॉल
संयुक्त मध्ये कोणत्या AI मॉडेल्सना अवैध टूल कॉल येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.
अयशस्वी होण्याची कारणे
श्रेणी
| क्रमांक | मॉडेल | कंपनी | अवैध टूल कॉल संख्या | श्रेणी स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #32 | Gemini 3.5 Flash minimal | 1 | 3.0 | 0/1 | 3.56s | |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 6.9 | 0/1 | 15.1s |
| #78 | Qwen3.6 27B medium | Qwen | 1 | 7.0 | 0/1 | 83.1s |
| #106 | Grok 4.20 Beta none | X AI | 1 | 3.0 | 0/1 | 6.48s |
| #112 | GLM 5.1 none | Z.ai | 1 | 2.8 | 0/1 | 32.6s |
| #118 | Qwen3.6 27B none | Qwen | 1 | 3.0 | 0/1 | 9.95s |
| #119 | Cobuddy medium | Baidu | 1 | 3.0 | 0/1 | 47.4s |
| #122 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 3.22s |
| #127 | Grok 4.20 none | X AI | 1 | 3.0 | 0/1 | 6.04s |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 3.0 | 0/1 | 4.22s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 4.5 | 0/1 | 60.4s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 41.0s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 6.5 | 0/1 | 115.9s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 35.3s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 4.5 | 0/1 | 112.0s |