???? ?????
$1.050 / 1M
???? ??????
$3.500 / 1M
Нестабильные тесты
3
Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).
История запусков
| Проверено | Оценка | Надежность | Тестов верно | Общая стоимость | Сравнить |
|---|---|---|---|---|---|
| 2026-05-21 23:46 Набор изменён | 7.4 | 3.3 | $0.286 | Сравнить | |
| 2026-05-08 14:41 Набор изменён | 7.6 | 0.0 | $0.209 | Текущий запуск | |
| 2026-05-08 14:41 Набор изменён | 7.6 | 0.0 | $0.209 | Сравнить | |
| 2026-04-22 12:55 Первый зафиксированный запуск | 7.8 | Н/Д | $0.201 | Сравнить |
Этот запуск использовал другой набор бенчмарков. Учитывайте изменения набора при чтении исторической динамики.
Сравнение запусков
| Запуск | Оценка | Стабильность | Надежность | Тестов верно | Нестабильные тесты | Общее число выходных токенов | Общая стоимость | Время ответа (среднее) |
|---|---|---|---|---|---|---|---|---|
| 2026-05-08 14:41 · Набор изменён | 7.6 | 8.7 | 0.0 | 12/19 | 3 | 59,356 | $0.209 | 24.43s |
| 2026-04-22 12:55 · Первый зафиксированный запуск | 7.8 | 8.6 | Н/Д | 12/18 | 3 | 57,095 | $0.201 | 24.13s |
| Разница | -0.2 | +0.1 | 0 | 0 | +2261 | +$0.009 | +293ms |
Эти два запуска использовали разные наборы бенчмарков, поэтому различия отражают и изменения модели, и изменения набора.
Графики
Выберите первую модель, затем нажмите вторую, чтобы открыть страницу сравнения бок о бок.
Оценка vs Общая стоимость
Время ответа (среднее)
Оценка vs Время ответа (среднее)
Общее число выходных токенов
Оценка vs Общее число выходных токенов
Быстрое сравнение
GLM 5.1mediumvsGemini 3.1 Flash Lite PreviewlowGLM 5.1mediumvsGPT-5.2 ChatnoneGLM 5.1mediumvsMiMo-V2.5-PromediumGLM 5.1mediumvsMiMo-V2-PromediumGLM 5.1mediumvsGemini 3 Flash PreviewnoneGLM 5.1mediumvsGrok Build 0.1mediumGLM 5.1mediumvsGemini 3 Flash PreviewmediumGLM 5.1mediumvsGemini 3.5 FlashhighGLM 5.1mediumvsRing-2.6-1TmediumGLM 5.1mediumvsGemini 3.5 Flashlow
Разбивка по категориям
| Категория | Оценка | Стабильность | Тестов верно |
|---|---|---|---|
| Анти-ИИ уловки | 10.0 | 10.0 | |
| Программирование | 4.7 | 1.6 | |
| Комбинированный | 9.5 | 10.0 | |
| Парсинг и извлечение данных | 10.0 | 10.0 | |
| Предметно-ориентированное | 5.3 | 10.0 | |
| Общий интеллект | 10.0 | 10.0 | |
| Следование инструкциям | 6.4 | 5.8 | |
| Решение головоломок | 8.2 | 7.2 | |
| Вызов инструментов | 3.0 | 10.0 | |
| Эрудиция | 3.0 | 10.0 |