Falhas AI BENCHY
Falhas por Formatação extra
Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↑.
32/32
Filtrar modelos
Nenhum modelo corresponde à pesquisa e aos filtros atuais.
| Posição | Modelo | Empresa | Contagem de Formatação extra | Pontuação | Custo total | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.0 | $0.003 | 2/21 | 728ms |
| #155 | Grok 4.20 none | X AI | 1 | 4.4 | $0.057 | 6/18 | 1.11s |
| #134 | MiMo-V2.5 none | Xiaomi | 1 | 5.1 | $0.007 | 5/21 | 2.20s |
| #114 | Mimo V2 Omni none | Xiaomi | 1 | 5.7 | $0.021 | 8/21 | 2.44s |
| #159 | MiMo-V2-Flash none | Xiaomi | 1 | 4.3 | $0.025 | 4/21 | 2.76s |
| #57 | Claude Opus 4.8 none | Anthropic | 3 | 7.2 | $0.539 | 12/21 | 3.47s |
| #55 | Claude Sonnet 4.6 none | Anthropic | 4 | 7.3 | $0.316 | 11/21 | 5.04s |
| #58 | DeepSeek V4 Pro none | DeepSeek | 1 | 7.2 | $0.034 | 10/21 | 6.41s |
| #130 | Qwen3 Coder Next none | Qwen | 1 | 5.1 | $0.009 | 5/21 | 8.62s |
| #136 | Grok 4.20 Multi Agent Beta medium | X AI | 2 | 5.0 | $5.599 | 8/18 | 9.69s |
| #110 | Owl Alpha none | Openrouter | 1 | 5.8 | $0.000 | 7/21 | 9.88s |
| #132 | Hunter Alpha medium | OpenRouter | 1 | 5.1 | $0.000 | 8/18 | 10.3s |
| #158 | Hy3 preview none | Tencent | 1 | 4.3 | $0.003 | 4/21 | 12.9s |
| #126 | DeepSeek V3.2 none | DeepSeek | 2 | 5.3 | $0.017 | 6/21 | 13.8s |
| #31 | Claude Sonnet 4.6 medium | Anthropic | 3 | 7.8 | $1.418 | 13/21 | 17.1s |