AI BENCHY
Методология бенчмарка
Эта страница описывает наш подход к бенчмаркингу на высоком уровне. Точные промпты и внутренние детали оценки мы сохраняем приватными, чтобы защитить целостность тестов.
Как это работает (в общих чертах)
- Приватные тесты: мы не публикуем точное содержание тестов, промпты и полные детали оценки.
- Повторные прогоны: каждая модель запускается несколько раз, чтобы отражать стабильность, а не один удачный запуск.
- Режимы рассуждения: при поддержке модели оцениваются в нескольких конфигурациях рассуждения.
- Выполнение через OpenRouter: запросы бенчмарка проходят через OpenRouter.
- Надежность в реальном мире: таймауты, простой сервиса и ошибки API считаются неуспешными попытками.
- Быстрое покрытие и развивающийся набор: поскольку наш набор меньше, мы быстро тестируем новые модели и постоянно добавляем или удаляем тесты.
- Сигнал общей интеллектуальности: оценка не привязана к одной категории. Это широкий индикатор практического вопроса: если вы спросите ИИ о чем угодно, насколько вероятен правильный ответ?
Мы публикуем методологию на общем уровне для прозрачности, сохраняя приватность чувствительных деталей бенчмарка.