AI BENCHY
Comparar Gráficos Metodologia
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Falhas AI BENCHY

Falhas por Formatação extra

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação média ↓.

Modelos exibidos

6

Falhas totais

13

Modelo mais afetado

Claude Sonnet 4.6 2
Posição Modelo Empresa Contagem de Formatação extra Pontuação média Testes corretos Tempo de resposta (médio)
#11 Claude Sonnet 4.6 medium Anthropic 2 7.7 12/16 11.2s
#25 Claude Sonnet 4.6 none Anthropic 3 6.8 10/16 5.57s
#26 Claude Opus 4.6 medium Anthropic 4 6.6 10/16 22.9s
#33 DeepSeek V3.2 none DeepSeek 2 5.5 7/16 12.9s
#48 Qwen3 Coder Next none Qwen 1 4.0 4/16 11.7s
#54 MiMo-V2-Flash none Xiaomi 1 2.9 3/16 2.97s

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs pontuação média

Melhores modelos por Tempo de resposta (médio)