AI BENCHY
Advertise here

Falhas por categoria AI BENCHY

Conhecimentos gerais: Sem resposta

Conhecimentos gerais
Sem resposta

Veja quais modelos de IA têm mais chance de encontrar Sem resposta em Conhecimentos gerais, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

6

Falhas totais

6

Modelo mais afetado

Claude Opus 4.8 1
Posição Modelo Empresa Contagem de Sem resposta Pontuação da categoria Testes corretos Tempo de resposta (médio)
#68 Claude Opus 4.8 none Anthropic 1 3.0 0/1 3.41s
#10 Claude Opus 4.8 medium Anthropic 1 3.0 0/1 6.14s
#67 MiniMax M3 medium Minimax 1 3.0 0/1 100.8s
#22 Step 3.7 Flash medium Stepfun 1 3.0 0/1 114.0s
#57 Step 3.7 Flash low Stepfun 1 3.0 0/1 124.8s
#71 Step 3.7 Flash high Stepfun 1 3.0 0/1 149.3s

Melhores modelos por Contagem de Sem resposta

Contagem de Sem resposta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado