Falhas AI BENCHY
Falhas por Formatação extra
Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Custo total ↑.
32/32
Filtrar modelos
Nenhum modelo corresponde à pesquisa e aos filtros atuais.
| Posição | Modelo | Empresa | Contagem de Formatação extra | Pontuação | Custo total | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|---|
| #107 | North Mini Code medium | Cohere | 2 | 5.8 | $0.000 | 9/21 | 106.2s |
| #110 | Owl Alpha none | Openrouter | 1 | 5.8 | $0.000 | 7/21 | 9.88s |
| #131 | North Mini Code none | Cohere | 2 | 5.1 | $0.000 | 4/21 | 29.8s |
| #132 | Hunter Alpha medium | OpenRouter | 1 | 5.1 | $0.000 | 8/18 | 10.3s |
| #158 | Hy3 preview none | Tencent | 1 | 4.3 | $0.003 | 4/21 | 12.9s |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.0 | $0.003 | 2/21 | 728ms |
| #134 | MiMo-V2.5 none | Xiaomi | 1 | 5.1 | $0.007 | 5/21 | 2.20s |
| #117 | DeepSeek V4 Flash none | DeepSeek | 2 | 5.5 | $0.007 | 5/21 | 26.8s |
| #130 | Qwen3 Coder Next none | Qwen | 1 | 5.1 | $0.009 | 5/21 | 8.62s |
| #126 | DeepSeek V3.2 none | DeepSeek | 2 | 5.3 | $0.017 | 6/21 | 13.8s |
| #114 | Mimo V2 Omni none | Xiaomi | 1 | 5.7 | $0.021 | 8/21 | 2.44s |
| #159 | MiMo-V2-Flash none | Xiaomi | 1 | 4.3 | $0.025 | 4/21 | 2.76s |
| #58 | DeepSeek V4 Pro none | DeepSeek | 1 | 7.2 | $0.034 | 10/21 | 6.41s |
| #165 | Qwen3.5-9B medium | Qwen | 1 | 3.8 | $0.036 | 3/21 | 82.2s |
| #62 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.1 | $0.043 | 12/21 | 20.1s |