AI BENCHY
Advertise here

Falhas por categoria AI BENCHY

Resolução de quebra-cabeças: Formatação extra

Resolução de quebra-cabeças
Formatação extra

Veja quais modelos de IA têm mais chance de encontrar Formatação extra em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

5

Falhas totais

5

Modelo mais afetado

Claude Sonnet 4.6 1
Posição Modelo Empresa Contagem de Formatação extra Pontuação da categoria Testes corretos Tempo de resposta (médio)
#77 Claude Sonnet 4.6 none Anthropic 1 7.7 2/3 2.53s
#68 Claude Opus 4.8 none Anthropic 1 7.7 2/3 2.74s
#51 Mimo V2 PRO medium Xiaomi 1 6.4 1/3 5.08s
#113 DeepSeek V4 Pro none DeepSeek 1 7.6 2/3 16.0s
#139 DeepSeek V4 Flash none DeepSeek 1 3.1 0/3 23.7s

Melhores modelos por Contagem de Formatação extra

Contagem de Formatação extra vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado