Falhas por categoria AI BENCHY
Conhecimentos gerais: Resposta incorreta
Conhecimentos gerais
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Conhecimentos gerais, para identificar pontos fracos mais rápido.
Motivos de falha
133/133
Filtrar modelos
Nenhum modelo corresponde à pesquisa e aos filtros atuais.
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Custo total | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|---|
| #42 | Grok Build 0.1 medium | X AI | 1 | 3.0 | $0.927 | 0/1 | 53.5s |
| #43 | Kimi K2.5 medium | Moonshot AI | 1 | 3.0 | $0.348 | 0/1 | 83.9s |
| #44 | Mercury 2 medium | Inception | 1 | 3.0 | $0.058 | 0/1 | 2.58s |
| #45 | GPT-5.3 Chat none | OpenAI | 1 | 3.0 | $0.433 | 0/1 | 4.38s |
| #46 | GPT-5.4 Nano medium | OpenAI | 1 | 3.0 | $0.107 | 0/1 | 4.81s |
| #47 | Qwen3.6 Flash medium | Qwen | 1 | 3.0 | $0.288 | 0/1 | 122.9s |
| #48 | DeepSeek V3.2 medium | DeepSeek | 1 | 3.0 | $0.044 | 0/1 | 84.0s |
| #49 | Claude Opus 4.7 none | Anthropic | 1 | 3.0 | $0.505 | 0/1 | 1.46s |
| #50 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 3.0 | $0.044 | 0/1 | 56.8s |
| #51 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 3.0 | $0.106 | 0/1 | 12.5s |
| #53 | Grok 4.20 medium | X AI | 1 | 3.0 | $0.609 | 0/1 | 63.5s |
| #54 | Hy3 preview medium | Tencent | 1 | 3.0 | $0.021 | 0/1 | 39.9s |
| #55 | Claude Sonnet 4.6 none | Anthropic | 1 | 3.0 | $0.316 | 0/1 | 4.67s |
| #56 | GLM 5V Turbo medium | Z.ai | 1 | 3.0 | $0.457 | 0/1 | 41.0s |
| #58 | DeepSeek V4 Pro none | DeepSeek | 1 | 3.0 | $0.034 | 0/1 | 5.76s |