AI BENCHY
Metodologia de benchmark
Esta página explica nossa abordagem de benchmarking em alto nível. Mantemos prompts exatos e detalhes internos de avaliação em privado para proteger a integridade dos testes.
Como funciona (alto nível)
- Testes privados: não publicamos o conteúdo exato dos testes, prompts ou detalhes completos de avaliação.
- Execuções repetidas: cada modelo roda várias vezes para refletir estabilidade, não uma tentativa de sorte.
- Modos de raciocínio: quando suportado, avaliamos modelos em múltiplas configurações de raciocínio.
- Execução via OpenRouter: as requisições de benchmark são roteadas pelo OpenRouter.
- Confiabilidade no mundo real: timeouts, indisponibilidade e erros de API contam como tentativas falhas.
- Cobertura rápida com suíte evolutiva: como nossa suíte é menor, testamos novos modelos rapidamente e adicionamos ou removemos testes continuamente.
- Sinal de inteligência geral: a pontuação não está ligada a uma única categoria. É um indicador amplo de uma pergunta prática: se você perguntar algo à IA, qual a chance de resposta correta?
Publicamos a metodologia em termos gerais para transparência, mantendo privados os detalhes sensíveis do benchmark.