AI BENCHY
Advertise here

Falhas por categoria AI BENCHY

Específico do domínio: Resposta incorreta

Específico do domínio
Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido.

Modelos exibidos

4

Falhas totais

314

Modelo mais afetado

Qwen3.6 Max Preview 3
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação da categoria Testes corretos Tempo de resposta (médio)
#122 GLM 4.7 Flash none Z.ai 1 7.7 2/3 744ms
#130 MiniMax M2.7 medium Minimax 1 3.0 0/3 19.0s
#132 Mistral Small 4 medium Mistral 1 5.3 1/3 6.11s
#160 LFM2-24B-A2B none Liquid 1 5.9 1/3 287ms

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado