AI BENCHY
Методология бенчмарка
Эта страница описывает наш подход к бенчмаркингу на высоком уровне. Точные промпты и внутренние детали оценки мы сохраняем приватными, чтобы защитить целостность тестов.
Тесты
Вопросы в основном выбираются довольно случайно, из разных задач и областей. Статистически более сильная модель должна в среднем показывать результат лучше, чем более слабая, на случайной, не подобранной специально задаче. У меня есть опыт в спортивном программировании, поэтому мне естественно думать о тестах и пограничных случаях.
Это не какой-то стандартизованный показатель "IQ". У оценки нет единицы измерения; это просто произвольное значение, показывающее, насколько хорошо модель справляется со всей тестовой подборкой (правильные ответы + стабильность). Я не cherry-pick'ю модели и не меняю тесты под какой-то конкретный модельный стек. Когда мне приходит в голову новый тест, я добавляю его, заново прогоняю все модели и пересчитываю оценки.
Обычно вопросы рождаются из простых идей вроде: "Интересно, хорошо ли модели справляются, когда их просят сделать X, Y или Z". Например: "Ответьте двумя равными натуральными числами a и b, сумма которых равна 2. Ответьте строго в формате: a,b". Некоторые ИИ могут дать неверный ответ, например "2,2". Другие могут не выполнить требование, что числа должны быть равны, например "0,2". Третьи могут проигнорировать формат вывода, например "The answer is a = 1 and b = 1". А некоторые могут просто ответить правильно: "1,1".
Некоторые тесты сложнее этого, но общая идея понятна. Это не отдаёт предпочтение какой-то конкретной модели, а сами вопросы в целом очень лёгкие для людей. Не моя вина, если Claude выводит что-то вроде "**1**, **1**", добавляя markdown-выделение, тогда как большинство других моделей корректно соблюдает требуемый формат.
Как это работает (в общих чертах)
- Приватные тесты: мы не публикуем точное содержание тестов, промпты и полные детали оценки.
- Повторные прогоны: каждая модель запускается несколько раз, чтобы отражать стабильность, а не один удачный запуск.
- Режимы рассуждения: при поддержке модели оцениваются в нескольких конфигурациях рассуждения.
- Выполнение через OpenRouter: запросы бенчмарка проходят через OpenRouter.
- Надежность в реальном мире: таймауты, простой сервиса и ошибки API считаются неуспешными попытками.
- Быстрое покрытие и развивающийся набор: поскольку наш набор меньше, мы быстро тестируем новые модели и постоянно добавляем или удаляем тесты.
- Сигнал общей интеллектуальности: оценка не привязана к одной категории. Это широкий индикатор практического вопроса: если вы спросите ИИ о чем угодно, насколько вероятен правильный ответ?
Мы публикуем методологию на общем уровне для прозрачности, сохраняя приватность чувствительных деталей бенчмарка.