AI BENCHY
Comparar Gráficos Metodologia
❤️ Made by XCS
Your ad here

Falhas AI BENCHY

Falhas por Formatação extra

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↑.

Modelos exibidos

6

Falhas totais

13

Modelo mais afetado

MiMo-V2-Flash 1
Posição Modelo Empresa Contagem de Formatação extra Pontuação média Testes corretos Tempo de resposta (médio)
#54 MiMo-V2-Flash none Xiaomi 1 2.9 3/16 2.97s
#48 Qwen3 Coder Next none Qwen 1 4.0 4/16 11.7s
#33 DeepSeek V3.2 none DeepSeek 2 5.5 7/16 12.9s
#25 Claude Sonnet 4.6 none Anthropic 3 6.8 10/16 5.57s
#26 Claude Opus 4.6 medium Anthropic 4 6.6 10/16 22.9s
#11 Claude Sonnet 4.6 medium Anthropic 2 7.7 12/16 11.2s

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs pontuação média

Melhores modelos por Tempo de resposta (médio)