AI BENCHY Compare

Inception: Mercury 2 vs Owl Alpha

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-03

Метрика	Mercury 2 Mercury 2 none Релиз: 2026-02-24	Owl Alpha Owl Alpha medium Релиз: 2026-04-30

Метрика	Mercury 2 Mercury 2 none Релиз: 2026-02-24	Owl Alpha Owl Alpha medium Релиз: 2026-04-30
Оценка	4.6	5.8
Ранг	#153	#107
Надежность	10.0	10.0
Стабильность	9.1	9.6
Тестов верно
Доля успешных попыток	25.0%	41.7%
Нестабильные тесты	2	1
Всего запусков	60	60
Стоимость за результат	0.216	0.000
Общая стоимость	$0.009	$0.000
Цена входа	$0.250 / 1M	$0.000 / 1M
Цена выхода	$0.750 / 1M	$0.000 / 1M
Общее число входных токенов	25,515	40,601
Выходные токены	3,001	2,965
Токены рассуждений	0	0
Время ответа (среднее)	614ms	11.64s
Время ответа (макс.)	1.27s	58.63s
Время ответа (суммарно)	12.28s	232.83s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
Owl Alpha	4.8	10.0	25.0%	0		3.97s	1,596	87	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.5	9.4	0.0%	0		831ms	4,631	1,650	0
Owl Alpha	6.6	10.0	50.0%	0		19.08s	3,872	1,754	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.0	10.0	0.0%	0		606ms	4,821	131	0
Owl Alpha	3.0	10.0	0.0%	0		10.01s	14,259	315	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
Owl Alpha	10.0	10.0	100.0%	0		21.64s	8,157	246	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
Owl Alpha	5.3	10.0	33.3%	0		8.58s	1,458	28	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
Owl Alpha	4.3	10.0	0.0%	0		58.63s	732	98	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
Owl Alpha	6.5	10.0	50.0%	0		10.15s	1,161	57	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
Owl Alpha	5.3	7.2	44.4%	1		3.40s	1,392	135	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
Owl Alpha	10.0	10.0	100.0%	0		8.26s	7,524	228	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
Owl Alpha	3.0	10.0	0.0%	0		2.38s	450	17	0

Быстрое сравнение

Сменить пару сравнения

Owl AlphamediumvsGLM 5.1none DeepSeek V4 PrononevsOwl Alphamedium Owl AlphamediumvsQwen3.5 Plus 2026-04-20none Seed-2.0-LitenonevsOwl Alphamedium Owl AlphamediumvsQwen3.5-35B-A3Bnone Owl AlphamediumvsGLM 5V Turbonone Owl AlphamediumvsQwen3.5-27Bnone Owl AlphamediumvsQwen3.6 27Bnone Owl AlphamediumvsQwen3.5-Flashnone Mercury 2nonevsQwen3 Coder Nextmedium Owl AlphamediumvsMimo V2 PROnone Mercury 2nonevsGLM 4.7 Flashmedium