Falhas AI BENCHY
Falhas por Resposta incorreta
Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher.
Categorias
Na categoria Específico do domínio288 Na categoria Truques anti-IA230 Na categoria Resolução de quebra-cabeças145 Na categoria Conhecimentos gerais119 Na categoria Seguimento de instruções51 Na categoria Combinado50 Na categoria Programação41 Na categoria Análise e extração de dados31 Na categoria Inteligência geral26 Na categoria Chamada de ferramentas2
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #133 | Mercury 2 none | Inception | 14 | 4.7 | 4/19 | 610ms |
| #137 | GPT-5.4 Nano none | OpenAI | 14 | 4.5 | 3/19 | 1.36s |
| #114 | Kimi K2.5 none | Moonshot AI | 13 | 5.4 | 6/19 | 12.6s |
| #126 | Mistral Small 4 none | Mistral | 13 | 5.1 | 5/19 | 651ms |
| #129 | GPT-4o-mini none | OpenAI | 13 | 4.9 | 5/19 | 1.90s |
| #139 | MiMo-V2-Flash none | Xiaomi | 13 | 4.5 | 3/19 | 2.73s |
| #141 | Grok 4.1 Fast none | X AI | 13 | 4.4 | 3/19 | 1.67s |
| #123 | Qwen3 Coder Next none | Qwen | 12 | 5.2 | 5/19 | 9.44s |
| #124 | Nemotron 3 Super none | NVIDIA | 12 | 5.2 | 5/19 | 5.80s |
| #130 | MiMo-V2.5 none | Xiaomi | 12 | 4.9 | 4/19 | 2.02s |
| #132 | Trinity Large Preview none | Arcee AI | 12 | 4.8 | 4/19 | 3.03s |
| #134 | Qwen3.5-9B none | Qwen | 12 | 4.7 | 4/19 | 1.51s |
| #140 | Ling-2.6-1T none | Inclusionai | 12 | 4.5 | 4/19 | 8.79s |
| #144 | Granite 4.1 8B none | IBM Granite | 12 | 4.1 | 2/19 | 743ms |
| #88 | Seed-2.0-Lite none | Bytedance Seed | 11 | 6.0 | 8/19 | 2.50s |