AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Falhas AI BENCHY

Falhas por Formatação extra

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

15

Falhas totais

23

Modelo mais afetado

Grok 4.20 1
Posição Modelo Empresa Contagem de Formatação extra Pontuação Testes corretos Tempo de resposta (médio)
#82 Grok 4.20 none X AI 1 5.2 5/18 1.11s
#94 MiMo-V2-Flash none Xiaomi 1 4.5 3/18 2.79s
#42 Claude Sonnet 4.6 none Anthropic 3 7.4 11/18 4.98s
#56 Grok 4.20 Multi Agent Beta medium X AI 2 6.4 7/18 9.80s
#87 Qwen3 Coder Next none Qwen 1 5.1 4/18 10.2s
#47 Grok 4.20 medium X AI 1 7.0 9/18 10.3s
#50 Hunter Alpha medium OpenRouter 1 6.7 8/18 10.3s
#64 DeepSeek V3.2 none DeepSeek 2 6.1 7/18 12.1s
#23 MiMo-V2-Pro medium Xiaomi 1 8.1 12/18 12.3s
#26 Claude Sonnet 4.6 medium Anthropic 2 8.0 13/18 12.7s
#35 MiMo-V2-Omni medium Xiaomi 1 7.7 11/18 16.8s
#37 Claude Opus 4.6 medium Anthropic 4 7.6 12/18 21.1s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#10 Qwen3.5-27B medium Qwen 1 8.4 13/18 53.0s
#97 Qwen3.5-9B medium Qwen 1 4.4 3/18 73.6s

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)