AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Falhas AI BENCHY

Falhas por Erro de API

Veja quais modelos de IA encontram Erro de API com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

15

Falhas totais

27

Modelo mais afetado

Step 3.5 Flash 1
Posição Modelo Empresa Contagem de Erro de API Pontuação Testes corretos Tempo de resposta (médio)
#99 Step 3.5 Flash none Stepfun 1 3.0 0/1 0ms
#98 LFM2-24B-A2B none Liquid 4 4.1 1/16 811ms
#94 MiMo-V2-Flash none Xiaomi 1 4.5 3/18 2.79s
#48 Gemma 4 31B none Google 2 6.9 10/18 4.02s
#72 Hunter Alpha none OpenRouter 1 5.7 6/18 4.58s
#73 Mistral Small 4 medium Mistral 2 5.7 5/18 5.64s
#12 Gemini 3 PRO Preview medium Google 1 8.4 14/18 9.06s
#56 Grok 4.20 Multi Agent Beta medium X AI 2 6.4 7/18 9.80s
#47 Grok 4.20 medium X AI 1 7.0 9/18 10.3s
#50 Hunter Alpha medium OpenRouter 1 6.7 8/18 10.3s
#84 gpt-oss-120b none OpenAI 3 5.2 4/18 12.0s
#20 Qwen3.6 Plus medium Qwen 1 8.1 13/18 15.3s
#51 Nemotron 3 Super medium NVIDIA 1 6.7 9/18 19.1s
#41 MiMo-V2-Flash medium Xiaomi 1 7.5 11/18 23.4s
#33 GLM 5.1 medium Z.ai 1 7.8 12/18 24.1s

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)