AI BENCHY Compare

Inception: Mercury 2 vs Qwen: Qwen3.5-9B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-12

Метрика	Mercury 2 Mercury 2 none Релиз: 2026-02-24	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02

Метрика	Mercury 2 Mercury 2 none Релиз: 2026-02-24	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02
Ранг	#61	#66
Средний балл	3.4	2.6
Стабильность	9.0	7.4
Стоимость за результат	0.153	0.779
Общая стоимость	$0.007	$0.024
Тестов верно
Доля успешных попыток	31.3%	35.4%
Нестабильные тесты	2	5
Всего запусков	48	48
Выходные токены	1,303	17,930
Токены рассуждений	0	139,706
Время ответа (среднее)	596ms	71.44s
Время ответа (макс.)	1.27s	226.38s
Время ответа (суммарно)	9.54s	928.77s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Общее число выходных токенов

Средний балл vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	0.0%	0		466ms	274	0
Qwen3.5-9B	4.0	7.2	55.6%	1		31.54s	2,410	10,913

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	0.0%	0		606ms	131	0
Qwen3.5-9B	10.0	10.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	5.5	5.9	83.3%	1		667ms	180	0
Qwen3.5-9B	5.0	5.6	33.3%	1		87.31s	1,383	32,113

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	4.0	7.2	44.4%	1		534ms	46	0
Qwen3.5-9B	10.0	7.2	22.2%	1		137.75s	11,549	48,475

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	4.0	10.0	0.0%	0		628ms	159	0
Qwen3.5-9B	10.0	1.6	33.3%	1		226.38s	0	30,695

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	5.5	10.0	50.0%	0		551ms	82	0
Qwen3.5-9B	5.5	5.8	66.7%	1		17.15s	599	4,517

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	0.0%	0		533ms	234	0
Qwen3.5-9B	10.0	10.0	0.0%	0		33.38s	1,545	11,844

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

Быстрое сравнение

Сменить пару сравнения

Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3.5-9BmediumvsGrok 4.1 Fastnone Nemotron 3 Super 120b A12bnoneБесплатно доступноvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGLM 4.7 Flashnone Mercury 2nonevsMiniMax M2.5medium GPT-4o-mininonevsQwen3.5-9Bmedium Kimi K2.5nonevsQwen3.5-9Bmedium Mercury 2nonevsGrok 4.20 Multi-Agent Betamedium Trinity Large PreviewnoneБесплатно доступноvsQwen3.5-9Bmedium Mercury 2nonevsgpt-oss-120bmediumБесплатно доступно