Falhas por categoria AI BENCHY
Conhecimentos gerais: Resposta incorreta
Conhecimentos gerais
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.
Motivos de falha
133/133
Filtrar modelos
Nenhum modelo corresponde à pesquisa e aos filtros atuais.
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Custo total | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|---|
| #93 | Gemini 2.5 Flash none | 1 | 3.0 | $0.016 | 0/1 | 1.15s | |
| #94 | Gemini 3.1 Flash Lite minimal | 1 | 3.0 | $0.013 | 0/1 | 724ms | |
| #96 | Gemini 3.1 Flash Lite none | 1 | 3.0 | $0.013 | 0/1 | 733ms | |
| #97 | Qwen3.5-Flash none | Qwen | 1 | 3.0 | $0.005 | 0/1 | 588ms |
| #98 | Gemma 4 31B none | 1 | 3.0 | $0.004 | 0/1 | 1.25s | |
| #99 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 3.0 | $0.027 | 0/1 | 1.83s |
| #100 | Qwen3.6 Max Preview none | Qwen | 1 | 3.0 | $0.075 | 0/1 | 1.97s |
| #101 | GLM 5 none | Z.ai | 1 | 3.0 | $0.027 | 0/1 | 3.62s |
| #102 | Qwen3.6 Flash none | Qwen | 1 | 3.0 | $0.015 | 0/1 | 649ms |
| #103 | Qwen3.5-35B-A3B none | Qwen | 1 | 3.0 | $0.012 | 0/1 | 493ms |
| #104 | Qwen3.5-27B none | Qwen | 1 | 3.0 | $0.015 | 0/1 | 599ms |
| #105 | GLM 5V Turbo none | Z.ai | 1 | 3.0 | $0.052 | 0/1 | 2.23s |
| #106 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 3.0 | $0.016 | 0/1 | 1.11s |
| #108 | Owl Alpha medium | Openrouter | 1 | 3.0 | $0.000 | 0/1 | 2.38s |
| #109 | Mimo V2 PRO none | Xiaomi | 1 | 3.0 | $0.045 | 0/1 | 1.63s |