AI BENCHY
Your ad here

Falhas AI BENCHY

Falhas por Formatação extra

Veja quais modelos de IA encontram Formatação extra com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

15

Falhas totais

23

Modelo mais afetado

Qwen3.5-9B 1
Posição Modelo Empresa Contagem de Formatação extra Pontuação Testes corretos Tempo de resposta (médio)
#97 Qwen3.5-9B medium Qwen 1 4.4 3/18 73.6s
#10 Qwen3.5-27B medium Qwen 1 8.4 13/18 53.0s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#37 Claude Opus 4.6 medium Anthropic 4 7.6 12/18 21.1s
#35 MiMo-V2-Omni medium Xiaomi 1 7.7 11/18 16.8s
#26 Claude Sonnet 4.6 medium Anthropic 2 8.0 13/18 12.7s
#23 MiMo-V2-Pro medium Xiaomi 1 8.1 12/18 12.3s
#64 DeepSeek V3.2 none DeepSeek 2 6.1 7/18 12.1s
#50 Hunter Alpha medium OpenRouter 1 6.7 8/18 10.3s
#47 Grok 4.20 medium X AI 1 7.0 9/18 10.3s
#87 Qwen3 Coder Next none Qwen 1 5.1 4/18 10.2s
#56 Grok 4.20 Multi Agent Beta medium X AI 2 6.4 7/18 9.80s
#42 Claude Sonnet 4.6 none Anthropic 3 7.4 11/18 4.98s
#94 MiMo-V2-Flash none Xiaomi 1 4.5 3/18 2.79s
#82 Grok 4.20 none X AI 1 5.2 5/18 1.11s

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)