Falhas AI BENCHY
Falhas por Resposta incorreta
Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher.
Categorias
Na categoria Específico do domínio314 Na categoria Truques anti-IA245 Na categoria Programação194 Na categoria Resolução de quebra-cabeças147 Na categoria Conhecimentos gerais130 Na categoria Seguimento de instruções53 Na categoria Combinado52 Na categoria Análise e extração de dados35 Na categoria Inteligência geral32 Na categoria Chamada de ferramentas2
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #106 | Grok 4.20 Beta none | X AI | 10 | 5.8 | 6/18 | 1.19s |
| #111 | Owl Alpha medium | Openrouter | 10 | 5.7 | 8/21 | 11.9s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 10 | 5.7 | 7/21 | 12.4s |
| #121 | Owl Alpha none | Openrouter | 10 | 5.5 | 7/21 | 9.88s |
| #127 | Grok 4.20 none | X AI | 10 | 5.4 | 6/18 | 1.11s |
| #145 | Laguna M.1 none | Poolside | 10 | 4.8 | 4/19 | 2.89s |
| #61 | Gemini 3.1 Flash Lite low | 9 | 7.2 | 12/21 | 1.89s | |
| #94 | GPT-5 Nano medium | OpenAI | 9 | 6.3 | 9/21 | 42.5s |
| #99 | gpt-oss-120b medium | OpenAI | 9 | 6.1 | 9/21 | 22.3s |
| #116 | Hunter Alpha none | OpenRouter | 9 | 5.7 | 6/18 | 4.70s |
| #119 | Cobuddy medium | Baidu | 9 | 5.6 | 7/21 | 39.9s |
| #136 | Elephant Alpha medium | Openrouter | 9 | 5.1 | 6/21 | 1.27s |
| #137 | Elephant Alpha none | Openrouter | 9 | 5.1 | 5/21 | 1.22s |
| #138 | Ling-2.6-flash none | Inclusionai | 9 | 5.0 | 6/21 | 9.34s |
| #158 | GLM 4.7 Flash medium | Z.ai | 9 | 4.4 | 4/21 | 35.1s |