AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Falhas por categoria AI BENCHY

Conhecimentos gerais: Sem resposta

Conhecimentos gerais
Sem resposta

Veja quais modelos de IA têm mais chance de encontrar Sem resposta em Conhecimentos gerais, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↑.

Modelos exibidos

6

Falhas totais

6

Modelo mais afetado

Claude Opus 4.8 1
Posição Modelo Empresa Contagem de Sem resposta Pontuação da categoria Testes corretos Tempo de resposta (médio)
#10 Claude Opus 4.8 medium Anthropic 1 3.0 0/1 6.14s
#22 Step 3.7 Flash medium Stepfun 1 3.0 0/1 114.0s
#57 Step 3.7 Flash low Stepfun 1 3.0 0/1 124.8s
#67 MiniMax M3 medium Minimax 1 3.0 0/1 100.8s
#68 Claude Opus 4.8 none Anthropic 1 3.0 0/1 3.41s
#71 Step 3.7 Flash high Stepfun 1 3.0 0/1 149.3s

Melhores modelos por Contagem de Sem resposta

Contagem de Sem resposta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado