AI BENCHY
Metodologia de benchmark
Esta página explica nossa abordagem de benchmarking em alto nível. Mantemos prompts exatos e detalhes internos de avaliação em privado para proteger a integridade dos testes.
Os testes
As perguntas são escolhidas em grande parte de forma bastante aleatória, em tarefas e domínios diferentes. Estatisticamente, um modelo melhor deveria, em média, ir melhor do que um modelo mais fraco em uma tarefa aleatória e não escolhida a dedo. Tenho background em programação competitiva, então pensar em testes e casos de borda vem naturalmente para mim.
Isso não é nenhum valor padronizado de "QI". A pontuação não tem unidade; é apenas um valor arbitrário que mostra o quão bem um modelo vai na suíte inteira de testes (respostas corretas + consistência). Eu não estou escolhendo modelos a dedo nem modificando testes para acomodar qualquer modelo. Quando penso em um teste novo, eu o adiciono, retesto todos os modelos e recalculo as pontuações.
As perguntas normalmente nascem de ideias simples do tipo: "Será que os modelos vão bem quando são convidados a fazer X, Y ou Z?". Por exemplo: "Responda com os dois números naturais iguais, a e b, que somados resultam em 2. Responda exatamente neste formato: a,b". Algumas IAs podem errar a resposta, por exemplo "2,2". Outras podem não seguir a exigência de que os números sejam iguais, por exemplo "0,2". Outras podem ignorar o formato de saída, por exemplo "The answer is a = 1 and b = 1". E outras podem simplesmente responder corretamente com "1,1".
Alguns testes são mais complexos do que esse, mas você já entendeu a ideia. Isso não favorece nenhum modelo específico, e essas perguntas em geral são muito fáceis para humanos. Não é culpa minha se Claude responde algo como "**1**, **1**", acrescentando destaque em markdown, quando a maioria dos outros modelos respeita corretamente o formato exigido.
Como funciona (alto nível)
- Testes privados: não publicamos o conteúdo exato dos testes, prompts ou detalhes completos de avaliação.
- Execuções repetidas: cada modelo roda várias vezes para refletir estabilidade, não uma tentativa de sorte.
- Modos de raciocínio: quando suportado, avaliamos modelos em múltiplas configurações de raciocínio.
- Execução via OpenRouter: as requisições de benchmark são roteadas pelo OpenRouter.
- Confiabilidade no mundo real: timeouts, indisponibilidade e erros de API contam como tentativas falhas.
- Cobertura rápida com suíte evolutiva: como nossa suíte é menor, testamos novos modelos rapidamente e adicionamos ou removemos testes continuamente.
- Sinal de inteligência geral: a pontuação não está ligada a uma única categoria. É um indicador amplo de uma pergunta prática: se você perguntar algo à IA, qual a chance de resposta correta?
Publicamos a metodologia em termos gerais para transparência, mantendo privados os detalhes sensíveis do benchmark.