AI BENCHY
Advertise here

Falhas por categoria AI BENCHY

Resolução de quebra-cabeças: Resposta incorreta

Resolução de quebra-cabeças
Resposta incorreta

Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Resolução de quebra-cabeças, para identificar pontos fracos mais rápido.

Modelos exibidos

15

Falhas totais

147

Modelo mais afetado

Qwen3.5-Flash 3
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação da categoria Testes corretos Tempo de resposta (médio)
#99 gpt-oss-120b medium OpenAI 1 5.3 1/3 21.7s
#100 Grok Build 0.1 none X AI 1 6.4 1/3 9.55s
#102 Gemma 4 26B A4B none Google 1 6.2 1/3 744ms
#103 DeepSeek V4 Pro high DeepSeek 1 5.9 1/3 34.8s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 1 5.9 1/3 1.06s
#106 Grok 4.20 Beta none X AI 1 7.7 2/3 586ms
#107 Laguna Xs.2 medium Poolside 1 5.3 1/3 1.93s
#109 GLM 5V Turbo none Z.ai 1 5.3 1/3 2.40s
#111 Owl Alpha medium Openrouter 1 5.3 1/3 3.40s
#112 GLM 5.1 none Z.ai 1 7.7 2/3 1.45s
#115 Qwen3.5-27B none Qwen 1 6.7 1/3 1.38s
#116 Hunter Alpha none OpenRouter 1 5.8 1/3 3.71s
#118 Qwen3.6 27B none Qwen 1 5.3 1/3 5.15s
#120 Mimo V2 PRO none Xiaomi 1 6.0 1/3 1.61s
#121 Owl Alpha none Openrouter 1 5.4 1/3 4.18s

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado