AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Formatação extra

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↓.

Modelos exibidos

15

Falhas totais

48

Modelo mais afetado

Qwen3.5-27B 1
Posição Modelo Empresa Contagem de Formatação extra Pontuação Testes corretos Tempo de resposta (médio)
#30 Qwen3.5-27B medium Qwen 1 7.8 13/21 68.4s
#38 Grok 4.3 medium X AI 1 7.6 13/21 47.5s
#43 MiMo-V2.5-Pro medium Xiaomi 3 7.5 12/21 26.1s
#47 Grok Build 0.1 medium X AI 3 7.4 13/21 49.9s
#51 Mimo V2 PRO medium Xiaomi 1 7.4 12/21 22.2s
#52 Claude Sonnet 4.6 medium Anthropic 3 7.4 13/21 17.1s
#55 GLM 5.1 medium Z.ai 1 7.3 12/21 33.7s
#56 MiMo-V2.5 medium Xiaomi 2 7.3 12/21 27.1s
#64 MiMo-V2-Flash medium Xiaomi 1 7.2 12/21 20.1s
#65 Grok 4.20 medium X AI 1 7.1 12/21 27.7s
#67 MiniMax M3 medium Minimax 1 7.1 11/21 68.2s
#68 Claude Opus 4.8 none Anthropic 3 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 5 7.0 12/21 25.9s
#77 Claude Sonnet 4.6 none Anthropic 4 6.8 11/21 5.04s
#79 Hunter Alpha medium OpenRouter 1 6.7 8/18 10.3s

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)