Falhas AI BENCHY
Falhas por Resposta incorreta
Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher.
Categorias
Na categoria Específico do domínio314 Na categoria Truques anti-IA245 Na categoria Programação194 Na categoria Resolução de quebra-cabeças147 Na categoria Conhecimentos gerais130 Na categoria Seguimento de instruções53 Na categoria Combinado52 Na categoria Análise e extração de dados35 Na categoria Inteligência geral32 Na categoria Chamada de ferramentas2
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #41 | Nemotron 3 Ultra 550b A55b medium | NVIDIA | 7 | 7.5 | 13/21 | 15.1s |
| #44 | Gemini 3.1 Flash Lite medium | 7 | 7.5 | 13/21 | 3.23s | |
| #50 | Gemini 3.1 Flash Lite Preview low | 7 | 7.4 | 13/21 | 2.77s | |
| #58 | Gemini 3.1 Flash Lite Preview none | 7 | 7.2 | 12/21 | 1.21s | |
| #59 | GLM 5V Turbo medium | Z.ai | 7 | 7.2 | 11/21 | 23.1s |
| #63 | GPT-5.3 Chat none | OpenAI | 7 | 7.2 | 12/21 | 6.34s |
| #100 | Grok Build 0.1 none | X AI | 7 | 6.0 | 7/19 | 28.7s |
| #129 | MiniMax M2.5 medium | Minimax | 7 | 5.3 | 5/21 | 65.4s |
| #133 | DeepSeek V3.2 none | DeepSeek | 7 | 5.2 | 6/21 | 13.8s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 7 | 4.6 | 4/19 | 17.1s |
| #24 | GPT-5.2 Chat none | OpenAI | 6 | 7.9 | 14/21 | 7.13s |
| #28 | Gemini 2.5 Flash medium | 6 | 7.8 | 14/21 | 15.5s | |
| #31 | DeepSeek V4 Flash high | DeepSeek | 6 | 7.7 | 13/21 | 45.8s |
| #45 | GPT-5.4 Mini medium | OpenAI | 6 | 7.5 | 12/21 | 22.3s |
| #65 | Grok 4.20 medium | X AI | 6 | 7.1 | 12/21 | 27.7s |