AI BENCHY
Advertise here

Falhas AI BENCHY

Falhas por Resposta incorreta

Veja quais modelos de IA encontram Resposta incorreta com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

13

Falhas totais

1204

Modelo mais afetado

Kimi K2.5 5
Posição Modelo Empresa Contagem de Resposta incorreta Pontuação Testes corretos Tempo de resposta (médio)
#137 Elephant Alpha none Openrouter 9 5.1 5/21 1.22s
#58 Gemini 3.1 Flash Lite Preview none Google 7 7.2 12/21 1.21s
#106 Grok 4.20 Beta none X AI 10 5.8 6/18 1.19s
#144 GPT-5.4 Mini none OpenAI 13 4.9 5/21 1.13s
#127 Grok 4.20 none X AI 10 5.4 6/18 1.11s
#90 Gemini 3.1 Flash Lite none Google 11 6.4 9/21 1.06s
#97 Gemini 2.5 Flash none Google 12 6.2 9/21 875ms
#146 Laguna Xs.2 none Poolside 8 4.8 5/19 806ms
#160 LFM2-24B-A2B none Liquid 9 4.2 2/16 782ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 9 4.1 2/19 728ms
#163 Granite 4.1 8B none IBM Granite 13 4.0 2/21 728ms
#155 Mercury 2 none Inception 16 4.5 4/21 653ms
#142 Mistral Small 4 none Mistral 15 4.9 5/21 630ms

Melhores modelos por Contagem de Resposta incorreta

Contagem de Resposta incorreta vs Pontuação

Melhores modelos por Tempo de resposta (médio)