Falhas por categoria AI BENCHY
Combinado: Chamada de ferramenta inválida
Combinado
Chamada de ferramenta inválida
Veja quais modelos de IA têm mais chance de encontrar Chamada de ferramenta inválida em Combinado, para identificar pontos fracos mais rápido.
Motivos de falha
Categorias
| Posição | Modelo | Empresa | Contagem de Chamada de ferramenta inválida | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #32 | Gemini 3.5 Flash minimal | 1 | 3.0 | 0/1 | 3.56s | |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 6.9 | 0/1 | 15.1s |
| #78 | Qwen3.6 27B medium | Qwen | 1 | 7.0 | 0/1 | 83.1s |
| #106 | Grok 4.20 Beta none | X AI | 1 | 3.0 | 0/1 | 6.48s |
| #112 | GLM 5.1 none | Z.ai | 1 | 2.8 | 0/1 | 32.6s |
| #118 | Qwen3.6 27B none | Qwen | 1 | 3.0 | 0/1 | 9.95s |
| #119 | Cobuddy medium | Baidu | 1 | 3.0 | 0/1 | 47.4s |
| #122 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 3.22s |
| #127 | Grok 4.20 none | X AI | 1 | 3.0 | 0/1 | 6.04s |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 3.0 | 0/1 | 4.22s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 4.5 | 0/1 | 60.4s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 41.0s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 6.5 | 0/1 | 115.9s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 35.3s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 4.5 | 0/1 | 112.0s |