Falhas por categoria AI BENCHY
Conhecimentos gerais: Resposta incorreta
Conhecimentos gerais
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.
Motivos de falha
133/133
Filtrar modelos
Nenhum modelo corresponde à pesquisa e aos filtros atuais.
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Custo total | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|---|
| #76 | MiMo-V2.5 medium | Xiaomi | 1 | 3.0 | $0.063 | 0/1 | 51.3s |
| #77 | Mimo V2 PRO medium | Xiaomi | 1 | 3.0 | $0.333 | 0/1 | 82.7s |
| #78 | gpt-oss-120b medium | OpenAI | 1 | 3.0 | $0.013 | 0/1 | 26.5s |
| #79 | GPT-5 Nano medium | OpenAI | 1 | 3.0 | $0.081 | 0/1 | 20.1s |
| #80 | Step 3.5 Flash medium | Stepfun | 1 | 3.0 | $0.070 | 0/1 | 108.4s |
| #81 | Qwen3.6 27B medium | Qwen | 1 | 3.0 | $0.440 | 0/1 | 81.0s |
| #82 | Gemini 3.1 Flash Lite Preview low | 1 | 3.0 | $0.026 | 0/1 | 1.35s | |
| #84 | Gemini 3.1 Flash Lite Preview none | 1 | 3.0 | $0.018 | 0/1 | 814ms | |
| #85 | Gemini 3.1 Flash Lite low | 1 | 3.0 | $0.028 | 0/1 | 1.46s | |
| #86 | Hy3 preview low | Tencent | 1 | 3.0 | $0.018 | 0/1 | 41.7s |
| #87 | Nemotron 3 Super medium | NVIDIA | 1 | 3.0 | $0.021 | 0/1 | 55.3s |
| #88 | Gemma 4 31B medium | 1 | 3.0 | $0.033 | 0/1 | 90.1s | |
| #89 | Qwen3.5-35B-A3B medium | Qwen | 1 | 3.0 | $0.401 | 0/1 | 177.4s |
| #90 | GPT-5.5 none | OpenAI | 1 | 3.0 | $0.231 | 0/1 | 5.01s |
| #92 | Seed-2.0-Lite none | Bytedance Seed | 1 | 3.0 | $0.019 | 0/1 | 1.96s |