AI BENCHY
Advertise here

Falhas por categoria AI BENCHY

Específico do domínio: Resposta incorreta

Específico do domínio
Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

15

Falhas totais

314

Modelo mais afetado

MiniMax M2.5 2
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação da categoria Testes corretos Tempo de resposta (médio)
#129 MiniMax M2.5 medium Minimax 2 2.9 0/3 237.3s
#103 DeepSeek V4 Pro high DeepSeek 1 2.9 0/3 205.7s
#94 GPT-5 Nano medium OpenAI 1 5.2 1/3 204.0s
#38 Grok 4.3 medium X AI 2 5.3 1/3 181.7s
#158 GLM 4.7 Flash medium Z.ai 2 3.5 0/3 174.6s
#62 Step 3.5 Flash medium Stepfun 2 5.3 1/3 170.5s
#9 GPT-5.5 medium OpenAI 2 5.3 1/3 164.1s
#47 Grok Build 0.1 medium X AI 1 5.3 1/3 158.0s
#71 Step 3.7 Flash high Stepfun 2 4.1 0/3 149.6s
#49 Qwen3.5-Flash medium Qwen 1 5.3 1/3 146.5s
#53 Gemini 3.1 Flash Lite high Google 3 3.6 0/3 139.9s
#76 Kimi K2.5 medium Moonshot AI 2 3.5 0/3 137.3s
#119 Cobuddy medium Baidu 3 2.9 0/3 128.2s
#12 Gemini 3.1 Flash Lite Preview high Google 2 5.3 1/3 127.6s
#86 Grok 4.1 Fast medium X AI 1 5.8 1/3 121.8s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado