Falhas por categoria AI BENCHY
Conhecimentos gerais: Resposta incorreta
Conhecimentos gerais
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.
Motivos de falha
133/133
Filtrar modelos
Nenhum modelo corresponde à pesquisa e aos filtros atuais.
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Custo total | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|---|
| #144 | Ring-2.6-1T none | Inclusionai | 1 | 3.0 | $0.026 | 0/1 | 133.6s |
| #145 | GPT-5.4 Nano none | OpenAI | 1 | 3.0 | $0.011 | 0/1 | 773ms |
| #146 | MiniMax M2.5 medium | Minimax | 1 | 3.0 | $0.303 | 0/1 | 80.8s |
| #148 | Qwen3 Coder Next medium | Qwen | 1 | 3.0 | $0.008 | 0/1 | 399ms |
| #151 | Mercury 2 none | Inception | 1 | 3.0 | $0.011 | 0/1 | 548ms |
| #157 | GLM 4.7 Flash medium | Z.ai | 1 | 3.0 | $0.054 | 0/1 | 11.1s |
| #158 | Hy3 preview none | Tencent | 1 | 3.0 | $0.003 | 0/1 | 2.71s |
| #159 | MiMo-V2-Flash none | Xiaomi | 1 | 3.0 | $0.025 | 0/1 | 1.82s |
| #160 | Grok Build 0.1 none | X AI | 1 | 3.0 | $0.547 | 0/1 | 36.1s |
| #161 | Grok 4.1 Fast none | X AI | 1 | 3.0 | $0.008 | 0/1 | 731ms |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.0 | $0.003 | 0/1 | 306ms |
| #164 | gpt-oss-120b none | OpenAI | 1 | 3.0 | $0.010 | 0/1 | 47.3s |
| #168 | Step 3.5 Flash none | Stepfun | 1 | 3.0 | $0.020 | 0/1 | 114.1s |