Falhas AI BENCHY
Falhas por Resposta incorreta
Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher.
Categorias
Na categoria Específico do domínio314 Na categoria Truques anti-IA245 Na categoria Programação194 Na categoria Resolução de quebra-cabeças147 Na categoria Conhecimentos gerais130 Na categoria Seguimento de instruções53 Na categoria Combinado52 Na categoria Análise e extração de dados35 Na categoria Inteligência geral32 Na categoria Chamada de ferramentas2
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #155 | Mercury 2 none | Inception | 16 | 4.5 | 4/21 | 653ms |
| #135 | Kimi K2.5 none | Moonshot AI | 15 | 5.2 | 6/21 | 13.2s |
| #142 | Mistral Small 4 none | Mistral | 15 | 4.9 | 5/21 | 630ms |
| #147 | GPT-4o-mini none | OpenAI | 15 | 4.8 | 5/21 | 1.77s |
| #148 | GPT-5.4 Nano none | OpenAI | 15 | 4.7 | 4/21 | 1.48s |
| #140 | Qwen3 Coder Next none | Qwen | 14 | 4.9 | 5/21 | 8.62s |
| #141 | Nemotron 3 Super none | NVIDIA | 14 | 4.9 | 5/21 | 5.30s |
| #143 | MiMo-V2.5 none | Xiaomi | 14 | 4.9 | 5/21 | 2.20s |
| #154 | Qwen3.5-9B none | Qwen | 14 | 4.6 | 4/21 | 1.89s |
| #108 | Qwen3.5-Flash none | Qwen | 13 | 5.8 | 8/21 | 3.58s |
| #110 | Seed-2.0-Lite none | Bytedance Seed | 13 | 5.8 | 8/21 | 2.49s |
| #112 | GLM 5.1 none | Z.ai | 13 | 5.7 | 7/21 | 4.10s |
| #122 | GLM 4.7 Flash none | Z.ai | 13 | 5.5 | 6/21 | 2.86s |
| #125 | GPT-5.4 none | OpenAI | 13 | 5.5 | 7/21 | 1.42s |
| #131 | Qwen3.5-122B-A10B none | Qwen | 13 | 5.3 | 6/21 | 3.41s |