AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Falhas por categoria AI BENCHY

Chamada de ferramentas: Erro de API

Chamada de ferramentas
Erro de API

Veja quais modelos de IA têm mais chance de encontrar Erro de API em Chamada de ferramentas, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

15

Falhas totais

15

Modelo mais afetado

Gemini 3.5 Flash 1
Posição Modelo Empresa Contagem de Erro de API Pontuação da categoria Testes corretos Tempo de resposta (médio)
#20 Gemini 3.5 Flash none Google 1 3.0 0/1 0ms
#27 Gemma 4 31B medium Google 1 3.0 0/1 0ms
#46 Qwen3.6 35B A3B medium Qwen 1 3.0 0/1 0ms
#55 GLM 5.1 medium Z.ai 1 3.0 0/1 0ms
#83 Step 3.5 Flash none Stepfun 1 3.0 0/1 0ms
#84 Grok 4.20 Multi Agent Beta medium X AI 1 3.0 0/1 0ms
#85 Gemma 4 31B none Google 1 3.0 0/1 0ms
#96 Ring-2.6-1T none Inclusionai 1 3.0 0/1 0ms
#100 Grok Build 0.1 none X AI 1 3.0 0/1 0ms
#126 gpt-oss-120b none OpenAI 1 3.0 0/1 0ms
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 3.0 0/1 0ms
#153 Qwen3.6 35B A3B none Qwen 1 3.0 0/1 0ms
#160 LFM2-24B-A2B none Liquid 1 3.0 0/1 0ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 3.0 0/1 0ms
#89 Hy3 preview low Tencent 1 2.8 0/1 17.8s

Melhores modelos por Contagem de Erro de API

Contagem de Erro de API vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado