Falhas AI BENCHY
Falhas por Formatação extra
Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↓.
32/32
Filtrar modelos
Nenhum modelo corresponde à pesquisa e aos filtros atuais.
| Posição | Modelo | Empresa | Contagem de Formatação extra | Pontuação | Custo total | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|---|
| #107 | North Mini Code medium | Cohere | 2 | 5.8 | $0.000 | 9/21 | 106.2s |
| #165 | Qwen3.5-9B medium | Qwen | 1 | 3.8 | $0.036 | 3/21 | 82.2s |
| #41 | DeepSeek V4 Pro high | DeepSeek | 1 | 7.6 | $0.157 | 9/21 | 77.2s |
| #29 | Qwen3.5-27B medium | Qwen | 1 | 7.9 | $0.536 | 13/21 | 68.4s |
| #40 | MiniMax M3 medium | Minimax | 1 | 7.6 | $0.131 | 11/21 | 68.2s |
| #42 | Grok Build 0.1 medium | X AI | 3 | 7.6 | $0.927 | 13/21 | 49.9s |
| #37 | Grok 4.3 medium | X AI | 1 | 7.7 | $0.614 | 13/21 | 47.5s |
| #73 | Mimo V2 Omni medium | Xiaomi | 1 | 6.8 | $0.683 | 10/21 | 41.2s |
| #64 | GLM 5.1 medium | Z.ai | 1 | 7.1 | $0.292 | 12/21 | 33.7s |
| #131 | North Mini Code none | Cohere | 2 | 5.1 | $0.000 | 4/21 | 29.8s |
| #53 | Grok 4.20 medium | X AI | 1 | 7.3 | $0.609 | 12/21 | 27.7s |
| #76 | MiMo-V2.5 medium | Xiaomi | 2 | 6.7 | $0.063 | 12/21 | 27.1s |
| #117 | DeepSeek V4 Flash none | DeepSeek | 2 | 5.5 | $0.007 | 5/21 | 26.8s |
| #51 | MiMo-V2.5-Pro medium | Xiaomi | 3 | 7.4 | $0.106 | 12/21 | 26.1s |
| #38 | Claude Opus 4.6 medium | Anthropic | 5 | 7.7 | $2.053 | 12/21 | 25.9s |