Falhas AI BENCHY
Falhas por Resposta incorreta
Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher.
Categorias
Na categoria Específico do domínio298 Na categoria Truques anti-IA235 Na categoria Resolução de quebra-cabeças148 Na categoria Conhecimentos gerais127 Na categoria Programação120 Na categoria Seguimento de instruções52 Na categoria Combinado51 Na categoria Análise e extração de dados32 Na categoria Inteligência geral27 Na categoria Chamada de ferramentas2
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #22 | Hy3 preview high | Tencent | 3 | 8.0 | 16/20 | 56.8s |
| #25 | Qwen3.5-27B medium | Qwen | 3 | 7.9 | 13/20 | 60.8s |
| #40 | MiMo-V2.5-Pro medium | Xiaomi | 3 | 7.6 | 12/20 | 21.8s |
| #46 | Claude Sonnet 4.6 medium | Anthropic | 3 | 7.6 | 13/20 | 15.7s |
| #48 | Gemini 3.1 Flash Lite high | 3 | 7.5 | 11/18 | 62.0s | |
| #54 | Kimi K2.6 medium | Moonshot AI | 3 | 7.4 | 12/20 | 54.1s |
| #57 | GPT-5.2 medium | OpenAI | 3 | 7.4 | 12/20 | 16.4s |
| #63 | Claude Opus 4.6 medium | Anthropic | 3 | 7.2 | 12/20 | 25.4s |
| #70 | Qwen3.5-35B-A3B medium | Qwen | 3 | 7.0 | 10/20 | 69.4s |
| #151 | Qwen3.5-9B medium | Qwen | 3 | 4.2 | 3/20 | 80.1s |
| #3 | Gemini 3.5 Flash low | 2 | 9.3 | 18/20 | 2.98s | |
| #4 | Gemini 3.1 Pro Preview medium | 2 | 9.3 | 18/20 | 20.8s | |
| #6 | Gemini 3.5 Flash medium | 2 | 9.0 | 17/20 | 4.29s | |
| #7 | Claude Opus 4.7 medium | Anthropic | 2 | 8.9 | 17/20 | 4.50s |
| #23 | Gemma 4 31B medium | 2 | 8.0 | 14/20 | 35.5s |