AI BENCHY
Advertise here

AI BENCHY

Журнал изменений

Простой журнал продуктовых и бенчмарк-обновлений, сгруппированных по дате. Здесь мы отмечаем новые протестированные модели, повторные прогоны, изменения бенчмарка и выпущенные UX/продуктовые улучшения.

2026-05-08

  • Новые протестированные модели: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
  • Исправление ошибки: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
  • UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

  • Новые протестированные модели: Cobuddy Добавлено benchmark-покрытие для Baidu CoBuddy.

2026-05-01

  • Новые протестированные модели: Grok 4.3, Granite 4.1 8B Добавлено benchmark-покрытие для xAI Grok 4.3 и IBM Granite 4.1 8B.

2026-04-30

  • Новые протестированные модели: Owl Alpha Добавлено benchmark-покрытие для Owl Alpha.

2026-04-26

  • UX: Улучшено положение выпадающего меню сравнения на мобильных, уплотнена компоновка страниц моделей, а история запусков разделена на шарды по моделям, чтобы страницы загружали меньше исторических данных.
  • Исправление ошибки: История запусков теперь группирует почти дублирующиеся ретесты одной и той же suite и показывает все публичные запуски на страницах моделей в прямой таблице сравнения.

2026-04-25

  • Новая функция: Добавлена телеметрия оценки надежности, чтобы сбои целевого API и лимитов отслеживались отдельно от неправильных ответов.

2026-04-24

  • Новые протестированные модели: DeepSeek V4 Flash, DeepSeek V4 Pro Добавлено benchmark-покрытие для DeepSeek V4 Flash и DeepSeek V4 Pro.
  • Новые протестированные модели: GPT-5.5 Добавлено benchmark-покрытие для OpenAI GPT-5.5.
  • Исправление ошибки: Ссылки на модели в changelog теперь ведут на канонические актуальные страницы моделей, а страницы моделей теперь также связывают варианты рассуждения между собой.

2026-04-23

  • Новые протестированные модели: inclusionai/ling-2.6-1t:free Добавлено benchmark-покрытие для InclusionAI Ling 2.6 1T Free.
  • Новая функция: История запусков - Страницы моделей теперь показывают исторические публичные запуски и таблицу сравнения запусков бок о бок. (Пример страницы модели)
  • UX: Лидерборд теперь поддерживает пагинацию и фильтры через URL, а также прямые действия сравнения из рейтингового списка.
  • Исправление ошибки: Поиск на главной странице, счетчики фильтров и состояние пагинации теперь остаются согласованными по всему набору данных.
  • Повторный прогон: GLM 5.1 Полный benchmark-набор был повторно запущен, а публичный snapshot истории запусков для этой модели очищен.
  • Исправление ошибки: Модели, которые фактически не проходили повторный тест, больше не получают новый timestamp tested_at.

Страница changelog создана

Этот changelog начали вести после запуска, поэтому часть более ранних обновлений здесь отсутствует.

2026-02-15

  • Первый релиз