AI BENCHY
Comparar Gráficos Metodologia
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY

Metodologia de benchmark

Esta página explica nossa abordagem de benchmarking em alto nível. Mantemos prompts exatos e detalhes internos de avaliação em privado para proteger a integridade dos testes.

Como funciona (alto nível)

  • Testes privados: não publicamos o conteúdo exato dos testes, prompts ou detalhes completos de avaliação.
  • Execuções repetidas: cada modelo roda várias vezes para refletir estabilidade, não uma tentativa de sorte.
  • Modos de raciocínio: quando suportado, avaliamos modelos em múltiplas configurações de raciocínio.
  • Execução via OpenRouter: as requisições de benchmark são roteadas pelo OpenRouter.
  • Confiabilidade no mundo real: timeouts, indisponibilidade e erros de API contam como tentativas falhas.
  • Cobertura rápida com suíte evolutiva: como nossa suíte é menor, testamos novos modelos rapidamente e adicionamos ou removemos testes continuamente.
  • Sinal de inteligência geral: a pontuação não está ligada a uma única categoria. É um indicador amplo de uma pergunta prática: se você perguntar algo à IA, qual a chance de resposta correta?

Publicamos a metodologia em termos gerais para transparência, mantendo privados os detalhes sensíveis do benchmark.