Falhas AI BENCHY
Falhas por Resposta incorreta
Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher.
Categorias
Na categoria Específico do domínio314 Na categoria Truques anti-IA245 Na categoria Programação194 Na categoria Resolução de quebra-cabeças147 Na categoria Conhecimentos gerais130 Na categoria Seguimento de instruções53 Na categoria Combinado52 Na categoria Análise e extração de dados35 Na categoria Inteligência geral32 Na categoria Chamada de ferramentas2
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #132 | Mistral Small 4 medium | Mistral | 12 | 5.3 | 5/21 | 9.40s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 12 | 5.0 | 5/21 | 26.8s |
| #151 | Trinity Large Preview none | Arcee AI | 12 | 4.6 | 4/21 | 2.98s |
| #159 | Ling-2.6-1T none | Inclusionai | 12 | 4.3 | 3/21 | 7.72s |
| #90 | Gemini 3.1 Flash Lite none | 11 | 6.4 | 9/21 | 1.06s | |
| #91 | GPT-5.5 none | OpenAI | 11 | 6.4 | 10/21 | 1.89s |
| #109 | GLM 5V Turbo none | Z.ai | 11 | 5.8 | 8/21 | 2.99s |
| #118 | Qwen3.6 27B none | Qwen | 11 | 5.6 | 7/21 | 3.72s |
| #120 | Mimo V2 PRO none | Xiaomi | 11 | 5.6 | 7/21 | 2.27s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 11 | 5.5 | 6/21 | 1.78s |
| #124 | Kimi K2.6 none | Moonshot AI | 11 | 5.5 | 7/21 | 13.3s |
| #74 | Qwen3.6 Max Preview none | Qwen | 10 | 6.9 | 11/21 | 3.30s |
| #88 | Qwen3.7 Plus none | Qwen | 10 | 6.4 | 10/21 | 2.85s |
| #101 | Mimo V2 Omni none | Xiaomi | 10 | 6.0 | 8/21 | 2.44s |
| #102 | Gemma 4 26B A4B none | 10 | 6.0 | 8/21 | 5.91s |