Registro de cambios

Un registro simple de actualizaciones de producto y benchmark, agrupado por fecha. Lo usamos para anotar modelos recién probados, re-tests, cambios del benchmark y trabajo de UX/producto ya publicado.

2026-06-17

Nuevos modelos probados: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
Nueva función: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
Corrección de error: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

Nuevos modelos probados: Qwen3.7 Max Se añadió cobertura de benchmark para Qwen 3.7 Max.
Nuevas pruebas añadidas: Se añadió una nueva categoría de test Coding enfocada en la búsqueda de errores en soluciones C++.

2026-05-21

Nuevos modelos probados: Gemini 3.5 Flash, Grok Build 0.1 Se agregó cobertura de benchmark para Google Gemini 3.5 Flash y xAI Grok Build 0.1.
Corrección de error: Se eliminó la variante sin razonamiento no compatible de xAI Grok Build 0.1 después de que la validación del proveedor exigiera razonamiento.

2026-05-08

Nuevos modelos probados: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
Corrección de error: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

Nuevos modelos probados: Cobuddy Se añadió cobertura de benchmark para Baidu CoBuddy.

2026-05-01

Nuevos modelos probados: Grok 4.3, Granite 4.1 8B Se añadió cobertura de benchmark para xAI Grok 4.3 e IBM Granite 4.1 8B.

2026-04-30

Nuevos modelos probados: Owl Alpha Se añadió cobertura de benchmark para Owl Alpha.

2026-04-26

UX: Se mejoró la posición móvil del desplegable de comparación, se ajustó el diseño de las páginas de modelo y se dividió el historial en fragmentos por modelo para cargar menos datos históricos.
Corrección de error: El historial de ejecuciones ahora agrupa retests casi duplicados de la misma suite y muestra todas las ejecuciones públicas en una tabla comparativa directa en las páginas de modelo.

2026-04-25

Nueva función: Se añadió telemetría de fiabilidad para registrar fallos de la API objetivo y de límite de tasa por separado de las respuestas incorrectas.

2026-04-24

Nuevos modelos probados: DeepSeek V4 Flash, DeepSeek V4 Pro Se añadió cobertura de benchmark para DeepSeek V4 Flash y DeepSeek V4 Pro.
Nuevos modelos probados: GPT-5.5 Se añadió cobertura de benchmark para OpenAI GPT-5.5.
Corrección de error: Los enlaces de modelos del changelog ahora apuntan a páginas canónicas activas de modelos, y las páginas de modelo ahora enlazan entre variantes de razonamiento.

2026-04-23

Nuevos modelos probados: inclusionai/ling-2.6-1t:free Se añadió cobertura de benchmark para InclusionAI Ling 2.6 1T Free.
Nueva función: Historial de ejecuciones - Las páginas de modelo ahora muestran ejecuciones públicas históricas y una tabla comparativa de ejecuciones en paralelo. (Página de modelo de ejemplo)
UX: La clasificación ahora admite paginación y filtros basados en URL, además de acciones directas de comparación desde la lista.
Corrección de error: La búsqueda de la página principal, los conteos de filtros y el estado de la paginación ahora se mantienen coherentes en todo el conjunto de datos.
Re-test: GLM 5.1 Se volvió a ejecutar la suite completa de benchmark y se limpió la instantánea pública del historial de ejecuciones de este modelo.
Corrección de error: Se evitó que modelos no retestados recibieran un nuevo timestamp tested_at.

Página de changelog creada

Este changelog empezó después del lanzamiento, así que faltan algunas actualizaciones anteriores.

2026-02-15

Lanzamiento inicial