AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Testes corretos ↓.

Modelos exibidos

15

Falhas totais

1204

Modelo mais afetado

Gemini 3 Flash Preview 1
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação Testes corretos Tempo de resposta (médio)
#124 Kimi K2.6 none Moonshot AI 11 5.5 7/21 13.3s
#125 GPT-5.4 none OpenAI 13 5.5 7/21 1.42s
#127 Grok 4.20 none X AI 10 5.4 6/18 1.11s
#128 Qwen3.6 Flash none Qwen 12 5.4 7/21 1.60s
#107 Laguna Xs.2 medium Poolside 6 5.8 6/19 6.73s
#126 gpt-oss-120b none OpenAI 8 5.4 6/19 21.6s
#122 GLM 4.7 Flash none Z.ai 13 5.5 6/21 2.86s
#123 MiMo-V2.5-Pro none Xiaomi 11 5.5 6/21 1.78s
#131 Qwen3.5-122B-A10B none Qwen 13 5.3 6/21 3.41s
#133 DeepSeek V3.2 none DeepSeek 7 5.2 6/21 13.8s
#134 GLM 5 Turbo none Z.ai 13 5.2 6/21 2.82s
#135 Kimi K2.5 none Moonshot AI 15 5.2 6/21 13.2s
#136 Elephant Alpha medium Openrouter 9 5.1 6/21 1.27s
#138 Ling-2.6-flash none Inclusionai 9 5.0 6/21 9.34s
#146 Laguna Xs.2 none Poolside 8 4.8 5/19 806ms

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)