Registro de alterações

Um registro simples de atualizações de produto e benchmark, agrupadas por data. Usamos isso para anotar modelos recém-testados, re-tests, mudanças no benchmark e trabalho de UX/produto já entregue.

2026-06-17

Novos modelos testados: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
Novo recurso: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
Correção de bug: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

Novos modelos testados: Qwen3.7 Max Adicionada cobertura de benchmark para Qwen 3.7 Max.
Novos testes adicionados: Adicionada uma nova categoria de teste Coding focada na busca de bugs em soluções C++.

2026-05-21

Novos modelos testados: Gemini 3.5 Flash, Grok Build 0.1 Cobertura de benchmark adicionada para Google Gemini 3.5 Flash e xAI Grok Build 0.1.
Correção de bug: A variante sem raciocínio não suportada do xAI Grok Build 0.1 foi removida depois que a validação do provedor exigiu raciocínio.

2026-05-08

Novos modelos testados: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
Correção de bug: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

Novos modelos testados: Cobuddy Adicionada cobertura de benchmark para Baidu CoBuddy.

2026-05-01

Novos modelos testados: Grok 4.3, Granite 4.1 8B Adicionada cobertura de benchmark para xAI Grok 4.3 e IBM Granite 4.1 8B.

2026-04-30

Novos modelos testados: Owl Alpha Adicionada cobertura de benchmark para Owl Alpha.

2026-04-26

UX: Melhoramos a posição do menu de comparação no celular, compactamos o layout das páginas de modelo e dividimos o histórico de execuções em shards por modelo para carregar menos dados históricos.
Correção de bug: O histórico de execuções agora agrupa retestes quase duplicados da mesma suíte e mostra todas as execuções públicas em uma tabela comparativa direta nas páginas de modelo.

2026-04-25

Novo recurso: Adicionamos telemetria de confiabilidade para rastrear falhas da API alvo e de limite de taxa separadamente de respostas erradas.

2026-04-24

Novos modelos testados: DeepSeek V4 Flash, DeepSeek V4 Pro Adicionada cobertura de benchmark para DeepSeek V4 Flash e DeepSeek V4 Pro.
Novos modelos testados: GPT-5.5 Adicionada cobertura de benchmark para OpenAI GPT-5.5.
Correção de bug: Os links de modelos no changelog agora apontam para páginas canônicas ativas dos modelos, e as páginas de modelo agora também ligam entre variantes de raciocínio.

2026-04-23

Novos modelos testados: inclusionai/ling-2.6-1t:free Adicionada cobertura de benchmark para InclusionAI Ling 2.6 1T Free.
Novo recurso: Histórico de execuções - As páginas de modelo agora mostram execuções públicas históricas e uma tabela comparativa lado a lado. (Página de modelo de exemplo)
UX: O leaderboard agora suporta paginação e filtros baseados em URL, além de ações diretas de comparação a partir da lista.
Correção de bug: A busca da homepage, as contagens de filtros e o estado da paginação agora permanecem consistentes em todo o conjunto de dados.
Re-test: GLM 5.1 A suíte completa de benchmark foi executada novamente e o snapshot público do histórico de execuções deste modelo foi limpo.
Correção de bug: Modelos que não foram realmente retestados deixaram de receber um novo timestamp tested_at.

Página de changelog criada

Este changelog começou após o lançamento, então algumas atualizações antigas não aparecem aqui.

2026-02-15

Lançamento inicial