Inception: Mercury 2 vs Qwen: Qwen3.5-9B

Mercury 2 лидирует по среднему баллу: 4.6 vs 3.8. Mercury 2 имеет более низкую стоимость benchmark: $0.030 vs $0.036. Mercury 2 быстрее: 829ms vs 82.24s, с долей успешных попыток 22.7% vs 25.8%.

Рекомендуемая модельMercury 2Здесь у него лучший балл (4.6), и он отвечает примерно в 99.2 раза быстрее, чем Qwen3.5-9B (medium).

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-25

Сводка сравнения

Ранг: #204
Общее число выходных токенов: 9,564
Время ответа (среднее): 829ms
Общая стоимость: $0.030

Ранг: #220
Общее число выходных токенов: 238,561
Время ответа (среднее): 82.24s
Общая стоимость: $0.036

Подробное сравнение

Метрика	Mercury 2 Mercury 2 none Релиз: 2026-02-24	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02

Метрика	Mercury 2 Mercury 2 none Релиз: 2026-02-24	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02
Оценка	4.6	3.8
Ранг	#204	#220
Надежность	10.0	5.0
Стабильность	9.2	8.1
Тестов верно
Доля успешных попыток	22.7%	25.8%
Нестабильные тесты	2	5
Всего запусков	66	66
Стоимость за результат	0.734	1.187
Общая стоимость	$0.030	$0.036
Цена входа	$0.250 / 1M	$0.100 / 1M
Цена выхода	$0.750 / 1M	$0.150 / 1M
Общее число входных токенов	88,704	17,070
Выходные токены	9,564	29,045
Токены рассуждений	0	209,516
Время ответа (среднее)	829ms	82.24s
Время ответа (макс.)	4.52s	226.38s
Время ответа (суммарно)	18.24s	1315.88s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#204 Mercury 2

none

Стоимость: $0.002
Время: 1.8s
Токены: 1,514 tok

#220 Qwen3.5-9B

medium

Стоимость: $0.001
Время: 35.9s
Токены: 3,030 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.0	10.0	0.0%	0		483ms	631	286	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	369	2,621	12,411

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.4	9.6	0.0%	0		1.03s	7,229	3,088	0
Qwen3.5-9B	2.9	10.0	0.0%	0		100.88s	2,396	7,890	41,129

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.0	10.0	0.0%	0		2.56s	65,412	5,256	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	7.3	5.9	83.3%	1		667ms	6,362	180	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	4,722	1,383	32,113

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	5.3	7.2	44.4%	1		534ms	784	46	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	295	11,549	48,475

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	4.8	10.0	0.0%	0		628ms	495	159	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	180	0	30,695

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	6.5	10.0	50.0%	0		551ms	691	82	0
Qwen3.5-9B	6.5	10.0	50.0%	0		5.75s	381	491	1,824

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.1	10.0	0.0%	0		535ms	694	251	0
Qwen3.5-9B	3.0	10.0	0.0%	0		32.27s	376	1,593	12,026

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		1.27s	6,193	197	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	8,283	444	1,149

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.0	10.0	0.0%	0		548ms	213	19	0
Qwen3.5-9B	3.0	10.0	0.0%	0		177.02s	68	3,074	29,694

Быстрое сравнение

Сменить пару сравнения

gpt-oss-120bnoneБесплатно доступноvsQwen3.5-9Bmedium CobuddymediumvsMercury 2none Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsMiniMax M2.5medium Granite 4.1 8BnonevsQwen3.5-9Bmedium Mercury 2nonevsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsGrok 4.20none Mercury 2nonevsLaguna S 2.1lowБесплатно доступно Mercury 2nonevsMiniMax M2.7medium Mercury 2nonevsMistral Small 4medium Mercury 2nonevsLaguna S 2.1highБесплатно доступно Laguna S 2.1noneБесплатно доступноvsQwen3.5-9Bmedium