AI BENCHY

Metodologia de benchmark

Esta página explica nossa abordagem de benchmarking em alto nível. Mantemos prompts exatos e detalhes internos de avaliação em privado para proteger a integridade dos testes.

Como funciona (alto nível)

Testes privados: não publicamos o conteúdo exato dos testes, prompts ou detalhes completos de avaliação.
Execuções repetidas: cada modelo roda várias vezes para refletir estabilidade, não uma tentativa de sorte.
Modos de raciocínio: quando suportado, avaliamos modelos em múltiplas configurações de raciocínio.
Execução via OpenRouter: as requisições de benchmark são roteadas pelo OpenRouter.
Confiabilidade no mundo real: timeouts, indisponibilidade e erros de API contam como tentativas falhas.
Cobertura rápida com suíte evolutiva: como nossa suíte é menor, testamos novos modelos rapidamente e adicionamos ou removemos testes continuamente.
Sinal de inteligência geral: a pontuação não está ligada a uma única categoria. É um indicador amplo de uma pergunta prática: se você perguntar algo à IA, qual a chance de resposta correta?

Publicamos a metodologia em termos gerais para transparência, mantendo privados os detalhes sensíveis do benchmark.