Журнал изменений

Простой журнал продуктовых и бенчмарк-обновлений, сгруппированных по дате. Здесь мы отмечаем новые протестированные модели, повторные прогоны, изменения бенчмарка и выпущенные UX/продуктовые улучшения.

2026-06-17

Новые протестированные модели: GLM 5.2, Kimi K2.7 Code, Claude Fable 5, Nemotron 3 Ultra, Qwen3.7 Plus, MiniMax M3, Step 3.7 Flash, Claude Opus 4.8 Added benchmark coverage for newly released models missing from the changelog: Z.ai GLM 5.2, MoonshotAI Kimi K2.7 Code, Anthropic Claude Fable 5, NVIDIA Nemotron 3 Ultra 550B A55B, Qwen 3.7 Plus, MiniMax M3, StepFun Step 3.7 Flash, and Anthropic Claude Opus 4.8.
Новая функция: Updated scoring to use per-category bias adjustments, so category-level differences are normalized before they roll into leaderboard results.
Исправление ошибки: Adjusted missing-test handling so models are not scored as if unavailable tests were valid wrong answers.
UX: Leaderboard search now supports comma-separated model queries, so searches like "deepseek, glm" show matches for either model family.

2026-05-22

Новые протестированные модели: Qwen3.7 Max Добавлено benchmark-покрытие для Qwen 3.7 Max.
Добавлены новые тесты: Добавлена новая категория тестов Coding, ориентированная на поиск ошибок в решениях на C++.

2026-05-21

Новые протестированные модели: Gemini 3.5 Flash, Grok Build 0.1 Добавлено покрытие бенчмарков для Google Gemini 3.5 Flash и xAI Grok Build 0.1.
Исправление ошибки: Удален неподдерживаемый вариант xAI Grok Build 0.1 без reasoning после того, как проверка провайдера потребовала reasoning.

2026-05-08

Новые протестированные модели: Gemini 3.1 Flash Lite Added benchmark coverage for Google Gemini 3.1 Flash Lite.
Исправление ошибки: Reasoning chips and compare labels now recognize the minimal reasoning variant instead of falling back to auto.
UX: Model pages now order sibling reasoning-variant chips from highest effort to lowest.

2026-05-06

Новые протестированные модели: Cobuddy Добавлено benchmark-покрытие для Baidu CoBuddy.

2026-05-01

Новые протестированные модели: Grok 4.3, Granite 4.1 8B Добавлено benchmark-покрытие для xAI Grok 4.3 и IBM Granite 4.1 8B.

2026-04-30

Новые протестированные модели: Owl Alpha Добавлено benchmark-покрытие для Owl Alpha.

2026-04-26

UX: Улучшено положение выпадающего меню сравнения на мобильных, уплотнена компоновка страниц моделей, а история запусков разделена на шарды по моделям, чтобы страницы загружали меньше исторических данных.
Исправление ошибки: История запусков теперь группирует почти дублирующиеся ретесты одной и той же suite и показывает все публичные запуски на страницах моделей в прямой таблице сравнения.

2026-04-25

Новая функция: Добавлена телеметрия оценки надежности, чтобы сбои целевого API и лимитов отслеживались отдельно от неправильных ответов.

2026-04-24

Новые протестированные модели: DeepSeek V4 Flash, DeepSeek V4 Pro Добавлено benchmark-покрытие для DeepSeek V4 Flash и DeepSeek V4 Pro.
Новые протестированные модели: GPT-5.5 Добавлено benchmark-покрытие для OpenAI GPT-5.5.
Исправление ошибки: Ссылки на модели в changelog теперь ведут на канонические актуальные страницы моделей, а страницы моделей теперь также связывают варианты рассуждения между собой.

2026-04-23

Новые протестированные модели: inclusionai/ling-2.6-1t:free Добавлено benchmark-покрытие для InclusionAI Ling 2.6 1T Free.
Новая функция: История запусков - Страницы моделей теперь показывают исторические публичные запуски и таблицу сравнения запусков бок о бок. (Пример страницы модели)
UX: Лидерборд теперь поддерживает пагинацию и фильтры через URL, а также прямые действия сравнения из рейтингового списка.
Исправление ошибки: Поиск на главной странице, счетчики фильтров и состояние пагинации теперь остаются согласованными по всему набору данных.
Повторный прогон: GLM 5.1 Полный benchmark-набор был повторно запущен, а публичный snapshot истории запусков для этой модели очищен.
Исправление ошибки: Модели, которые фактически не проходили повторный тест, больше не получают новый timestamp tested_at.

Страница changelog создана

Этот changelog начали вести после запуска, поэтому часть более ранних обновлений здесь отсутствует.

2026-02-15

Первый релиз