AI BENCHY
Advertise here

AI BENCHY

Registro de alterações

Um registro simples de atualizações de produto e benchmark, agrupadas por data. Usamos isso para anotar modelos recém-testados, re-tests, mudanças no benchmark e trabalho de UX/produto já entregue.

2026-05-06

  • Novos modelos testados: Cobuddy Adicionada cobertura de benchmark para Baidu CoBuddy.

2026-05-01

  • Novos modelos testados: Grok 4.3, Granite 4.1 8B Adicionada cobertura de benchmark para xAI Grok 4.3 e IBM Granite 4.1 8B.

2026-04-30

  • Novos modelos testados: Owl Alpha Adicionada cobertura de benchmark para Owl Alpha.

2026-04-26

  • UX: Melhoramos a posição do menu de comparação no celular, compactamos o layout das páginas de modelo e dividimos o histórico de execuções em shards por modelo para carregar menos dados históricos.
  • Correção de bug: O histórico de execuções agora agrupa retestes quase duplicados da mesma suíte e mostra todas as execuções públicas em uma tabela comparativa direta nas páginas de modelo.

2026-04-25

  • Novo recurso: Adicionamos telemetria de confiabilidade para rastrear falhas da API alvo e de limite de taxa separadamente de respostas erradas.

2026-04-24

  • Novos modelos testados: DeepSeek V4 Flash, DeepSeek V4 Pro Adicionada cobertura de benchmark para DeepSeek V4 Flash e DeepSeek V4 Pro.
  • Novos modelos testados: GPT-5.5 Adicionada cobertura de benchmark para OpenAI GPT-5.5.
  • Correção de bug: Os links de modelos no changelog agora apontam para páginas canônicas ativas dos modelos, e as páginas de modelo agora também ligam entre variantes de raciocínio.

2026-04-23

  • Novos modelos testados: inclusionai/ling-2.6-1t:free Adicionada cobertura de benchmark para InclusionAI Ling 2.6 1T Free.
  • Novo recurso: Histórico de execuções - As páginas de modelo agora mostram execuções públicas históricas e uma tabela comparativa lado a lado. (Página de modelo de exemplo)
  • UX: O leaderboard agora suporta paginação e filtros baseados em URL, além de ações diretas de comparação a partir da lista.
  • Correção de bug: A busca da homepage, as contagens de filtros e o estado da paginação agora permanecem consistentes em todo o conjunto de dados.
  • Re-test: GLM 5.1 A suíte completa de benchmark foi executada novamente e o snapshot público do histórico de execuções deste modelo foi limpo.
  • Correção de bug: Modelos que não foram realmente retestados deixaram de receber um novo timestamp tested_at.

Página de changelog criada

Este changelog começou após o lançamento, então algumas atualizações antigas não aparecem aqui.

2026-02-15

  • Lançamento inicial