AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY

Registro de cambios

Un registro simple de actualizaciones de producto y benchmark, agrupado por fecha. Lo usamos para anotar modelos recién probados, re-tests, cambios del benchmark y trabajo de UX/producto ya publicado.

2026-05-08

  • Nuevos modelos probados: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • Corrección de error: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • Nuevos modelos probados: Cobuddy Se añadió cobertura de benchmark para Baidu CoBuddy.

2026-05-01

  • Nuevos modelos probados: Grok 4.3, Granite 4.1 8B Se añadió cobertura de benchmark para xAI Grok 4.3 e IBM Granite 4.1 8B.

2026-04-30

  • Nuevos modelos probados: Owl Alpha Se añadió cobertura de benchmark para Owl Alpha.

2026-04-26

  • UX: Se mejoró la posición móvil del desplegable de comparación, se ajustó el diseño de las páginas de modelo y se dividió el historial en fragmentos por modelo para cargar menos datos históricos.
  • Corrección de error: El historial de ejecuciones ahora agrupa retests casi duplicados de la misma suite y muestra todas las ejecuciones públicas en una tabla comparativa directa en las páginas de modelo.

2026-04-25

  • Nueva función: Se añadió telemetría de fiabilidad para registrar fallos de la API objetivo y de límite de tasa por separado de las respuestas incorrectas.

2026-04-24

  • Nuevos modelos probados: DeepSeek V4 Flash, DeepSeek V4 Pro Se añadió cobertura de benchmark para DeepSeek V4 Flash y DeepSeek V4 Pro.
  • Nuevos modelos probados: GPT-5.5 Se añadió cobertura de benchmark para OpenAI GPT-5.5.
  • Corrección de error: Los enlaces de modelos del changelog ahora apuntan a páginas canónicas activas de modelos, y las páginas de modelo ahora enlazan entre variantes de razonamiento.

2026-04-23

  • Nuevos modelos probados: inclusionai/ling-2.6-1t:free Se añadió cobertura de benchmark para InclusionAI Ling 2.6 1T Free.
  • Nueva función: Historial de ejecuciones - Las páginas de modelo ahora muestran ejecuciones públicas históricas y una tabla comparativa de ejecuciones en paralelo. (Página de modelo de ejemplo)
  • UX: La clasificación ahora admite paginación y filtros basados en URL, además de acciones directas de comparación desde la lista.
  • Corrección de error: La búsqueda de la página principal, los conteos de filtros y el estado de la paginación ahora se mantienen coherentes en todo el conjunto de datos.
  • Re-test: GLM 5.1 Se volvió a ejecutar la suite completa de benchmark y se limpió la instantánea pública del historial de ejecuciones de este modelo.
  • Corrección de error: Se evitó que modelos no retestados recibieran un nuevo timestamp tested_at.

Página de changelog creada

Este changelog empezó después del lanzamiento, así que faltan algunas actualizaciones anteriores.

2026-02-15

  • Lanzamiento inicial