Falhas por categoria AI BENCHY
Conhecimentos gerais: Resposta incorreta
Conhecimentos gerais
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.
Motivos de falha
133/133
Filtrar modelos
Nenhum modelo corresponde à pesquisa e aos filtros atuais.
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Custo total | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|---|
| #110 | Owl Alpha none | Openrouter | 1 | 3.0 | $0.000 | 0/1 | 2.50s |
| #111 | Kimi K2.6 none | Moonshot AI | 1 | 3.0 | $0.079 | 0/1 | 1.36s |
| #112 | GPT-5.4 none | OpenAI | 1 | 3.0 | $0.122 | 0/1 | 990ms |
| #114 | Mimo V2 Omni none | Xiaomi | 1 | 3.0 | $0.021 | 0/1 | 1.30s |
| #115 | Grok 4.1 Fast medium | X AI | 1 | 3.0 | $0.069 | 0/1 | 25.5s |
| #116 | GLM 5.1 none | Z.ai | 1 | 3.0 | $0.058 | 0/1 | 2.34s |
| #117 | DeepSeek V4 Flash none | DeepSeek | 1 | 3.0 | $0.007 | 0/1 | 3.07s |
| #118 | Kimi K2.5 none | Moonshot AI | 1 | 3.0 | $0.027 | 0/1 | 3.90s |
| #119 | MiMo-V2.5-Pro none | Xiaomi | 1 | 3.0 | $0.017 | 0/1 | 1.89s |
| #120 | Qwen3.6 27B none | Qwen | 1 | 3.0 | $0.028 | 0/1 | 4.03s |
| #121 | Gemma 4 26B A4B none | 1 | 3.0 | $0.004 | 0/1 | 778ms | |
| #122 | Qwen3.5 Plus 2026-04-20 none | Qwen | 1 | 3.0 | $0.032 | 0/1 | 33.3s |
| #123 | GLM 5 Turbo none | Z.ai | 1 | 3.0 | $0.047 | 0/1 | 2.37s |
| #124 | GPT-5.4 Mini none | OpenAI | 1 | 3.0 | $0.038 | 0/1 | 1.33s |
| #125 | Qwen3.5-122B-A10B none | Qwen | 1 | 3.0 | $0.020 | 0/1 | 295ms |