Falhas AI BENCHY
Falhas por Resposta incorreta
Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher.
Categorias
Na categoria Específico do domínio182 Na categoria Truques anti-IA165 Na categoria Resolução de quebra-cabeças85 Na categoria Seguimento de instruções44 Na categoria Combinado37 Na categoria Programação28 Na categoria Análise e extração de dados19 Na categoria Inteligência geral10 Na categoria Chamada de ferramentas2
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #92 | Qwen3 Coder Next medium | Qwen | 9 | 4.7 | 3/18 | 10.8s |
| #98 | LFM2-24B-A2B none | Liquid | 9 | 4.1 | 1/16 | 811ms |
| #55 | MiMo-V2-Omni none | Xiaomi | 8 | 6.5 | 8/18 | 1.99s |
| #58 | GLM 5V Turbo none | Z.ai | 8 | 6.2 | 8/18 | 3.10s |
| #64 | DeepSeek V3.2 none | DeepSeek | 8 | 6.1 | 7/18 | 12.1s |
| #69 | Kimi K2.6 none | Moonshot AI | 8 | 5.8 | 7/18 | 2.05s |
| #73 | Mistral Small 4 medium | Mistral | 8 | 5.7 | 5/18 | 5.64s |
| #93 | GLM 4.7 Flash medium | Z.ai | 8 | 4.6 | 4/18 | 32.3s |
| #57 | GPT-5 Nano medium | OpenAI | 7 | 6.3 | 7/18 | 44.1s |
| #60 | Gemma 4 26B A4B none | 7 | 6.2 | 7/18 | 6.59s | |
| #68 | gpt-oss-120b medium | OpenAI | 7 | 5.8 | 7/18 | 16.1s |
| #54 | Mercury 2 medium | Inception | 6 | 6.5 | 8/18 | 2.21s |
| #84 | gpt-oss-120b none | OpenAI | 6 | 5.2 | 4/18 | 12.0s |
| #21 | Gemini 3 Flash Preview none | 5 | 8.1 | 13/18 | 1.65s | |
| #28 | GPT-5.2 Chat none | OpenAI | 5 | 7.9 | 12/18 | 6.84s |