Falhas por categoria AI BENCHY
Conhecimentos gerais: Resposta incorreta
Conhecimentos gerais
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.
Motivos de falha
133/133
Filtrar modelos
Nenhum modelo corresponde à pesquisa e aos filtros atuais.
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Custo total | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|---|
| #126 | DeepSeek V3.2 none | DeepSeek | 1 | 3.0 | $0.017 | 0/1 | 17.2s |
| #127 | MiniMax M2.7 medium | Minimax | 1 | 3.0 | $0.104 | 0/1 | 22.8s |
| #128 | Qwen3.6 35B A3B none | Qwen | 1 | 3.0 | $0.031 | 0/1 | 414ms |
| #129 | Mistral Small 4 none | Mistral | 1 | 3.0 | $0.007 | 0/1 | 397ms |
| #130 | Qwen3 Coder Next none | Qwen | 1 | 3.0 | $0.009 | 0/1 | 601ms |
| #131 | North Mini Code none | Cohere | 1 | 3.0 | $0.000 | 0/1 | 37.4s |
| #133 | Mistral Small 4 medium | Mistral | 1 | 3.0 | $0.068 | 0/1 | 5.92s |
| #134 | MiMo-V2.5 none | Xiaomi | 1 | 3.0 | $0.007 | 0/1 | 3.89s |
| #135 | Qwen3.5-9B none | Qwen | 1 | 3.0 | $0.006 | 0/1 | 2.32s |
| #137 | Trinity Large Preview none | Arcee AI | 1 | 3.0 | $0.008 | 0/1 | 777ms |
| #139 | GPT-4o-mini none | OpenAI | 1 | 3.0 | $0.006 | 0/1 | 794ms |
| #140 | Cobuddy medium | Baidu | 1 | 3.0 | $0.000 | 0/1 | 37.0s |
| #141 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | $0.004 | 0/1 | 692ms |
| #142 | Nemotron 3 Super none | NVIDIA | 1 | 3.0 | $0.007 | 0/1 | 8.94s |
| #143 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | $0.001 | 0/1 | 1.06s |