AI BENCHY
Your ad here

Falhas por categoria AI BENCHY

Resolução de quebra-cabeças: Resposta incorreta

Resolução de quebra-cabeças
Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

5

Falhas totais

85

Modelo mais afetado

Kimi K2.5 3
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação da categoria Testes corretos Tempo de resposta (médio)
#86 GPT-5.4 Mini none OpenAI 1 5.4 1/3 860ms
#88 Nemotron 3 Super none NVIDIA 1 5.7 1/3 7.50s
#90 Qwen3.5-9B none Qwen 1 3.2 0/3 683ms
#92 Qwen3 Coder Next medium Qwen 1 3.1 0/3 2.30s
#98 LFM2-24B-A2B none Liquid 1 4.4 0/3 1.69s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado