???? ?????
$0.500 / 1M
???? ??????
$2.000 / 1M
Нестабильные тесты
1
Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).
История запусков
| Проверено | Оценка | Надежность | Тестов верно | Общая стоимость | Сравнить |
|---|---|---|---|---|---|
| 2026-04-27 21:48 Добавлен новый тест | 7.0 | 10.0 | $0.209 | Сравнить | |
| 2026-04-27 21:31 Первый зафиксированный запуск | 7.9 | 10.0 | $0.043 | Текущий запуск |
Сравнение запусков
| Запуск | Оценка | Стабильность | Надежность | Тестов верно | Нестабильные тесты | Общее число выходных токенов | Общая стоимость | Время ответа (среднее) |
|---|---|---|---|---|---|---|---|---|
| 2026-04-27 21:31 · Первый зафиксированный запуск | 7.9 | 8.5 | 10.0 | 4/6 | 1 | 21,553 | $0.043 | 25.56s |
| 2026-04-27 21:48 · Добавлен новый тест | 7.0 | 7.9 | 10.0 | 9/18 | 5 | 99,362 | $0.209 | 50.53s |
| Разница | +0.9 | +0.6 | 0.0 | -5 | -4 | -77809 | -$0.166 | -24972ms |
Эти два запуска использовали разные наборы бенчмарков, поэтому различия отражают и изменения модели, и изменения набора.
Графики
Выберите первую модель, затем нажмите вторую, чтобы открыть страницу сравнения бок о бок.
Оценка vs Общая стоимость
Время ответа (среднее)
Оценка vs Время ответа (среднее)
Общее число выходных токенов
Оценка vs Общее число выходных токенов
Быстрое сравнение
Qwen3.6 27BmediumvsGPT-5.4 MinimediumQwen3.6 27BmediumvsKimi K2.5mediumQwen3.6 27BmediumvsQwen3.6 Max PreviewnoneQwen3.6 27BmediumvsQwen3.5-35B-A3BmediumQwen3.6 27BmediumvsGrok 4.20mediumQwen3.6 27BmediumvsGemini 3 Flash PreviewmediumQwen3.6 27BmediumvsGemini 3.1 Pro PreviewmediumQwen3.6 27BmediumvsHY3 PreviewhighБесплатно доступно
Разбивка по категориям
| Категория | Оценка | Стабильность | Тестов верно |
|---|---|---|---|
| Анти-ИИ уловки | 10.0 | 10.0 | |
| Парсинг и извлечение данных | 4.3 | 1.2 | |
| Предметно-ориентированное | 3.0 | 10.0 | |
| Следование инструкциям | 10.0 | 10.0 | |
| Вызов инструментов | 10.0 | 10.0 |