Falhas AI BENCHY
Falhas por Resposta incorreta
Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher.
Categorias
Na categoria Específico do domínio182 Na categoria Truques anti-IA165 Na categoria Resolução de quebra-cabeças85 Na categoria Seguimento de instruções44 Na categoria Combinado37 Na categoria Programação28 Na categoria Análise e extração de dados19 Na categoria Inteligência geral10 Na categoria Chamada de ferramentas2
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #7 | GPT-5.3-Codex medium | OpenAI | 3 | 8.6 | 13/18 | 15.4s |
| #9 | Qwen3.6 Plus Preview medium | Qwen | 3 | 8.5 | 13/17 | 13.9s |
| #11 | Gemini 3.1 Flash Lite Preview high | 3 | 8.4 | 12/16 | 68.8s | |
| #12 | Gemini 3 PRO Preview medium | 3 | 8.4 | 14/18 | 9.06s | |
| #16 | GPT-5.4 medium | OpenAI | 3 | 8.2 | 13/18 | 18.6s |
| #18 | GLM 5 Turbo medium | Z.ai | 3 | 8.1 | 12/18 | 17.7s |
| #19 | Qwen3.5-122B-A10B medium | Qwen | 3 | 8.1 | 13/18 | 31.4s |
| #20 | Qwen3.6 Plus medium | Qwen | 3 | 8.1 | 13/18 | 15.3s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 3 | 8.1 | 12/18 | 12.3s |
| #25 | Grok 4.20 Beta medium | X AI | 3 | 8.0 | 12/18 | 9.81s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 3 | 8.0 | 12/18 | 46.4s |
| #30 | Step 3.5 Flash medium | Stepfun | 3 | 7.9 | 11/17 | 26.8s |
| #31 | GLM 5V Turbo medium | Z.ai | 3 | 7.8 | 11/18 | 15.0s |
| #33 | GLM 5.1 medium | Z.ai | 3 | 7.8 | 12/18 | 24.1s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 3 | 7.7 | 11/18 | 16.8s |