AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Inception: Mercury 2

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-16

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	Mercury 2 Mercury 2 none Релиз: 2026-02-24

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	Mercury 2 Mercury 2 none Релиз: 2026-02-24
Оценка	9.6	4.8
Ранг	#2	#89
Стабильность	10.0	9.0
Тестов верно
Доля успешных попыток	94.4%	27.8%
Нестабильные тесты	0	2
Всего запусков	54	54
Стоимость за результат	3.400	0.165
Общая стоимость	$0.578	$0.007
???? ?????	$2.000 / 1M	$0.250 / 1M
???? ??????	$12.000 / 1M	$0.750 / 1M
Выходные токены	1,932	1,625
Токены рассуждений	40,542	0
Время ответа (среднее)	15.96s	613ms
Время ответа (макс.)	40.61s	1.27s
Время ответа (суммарно)	175.52s	11.04s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
Mercury 2	3.0	10.0	0.0%	0		483ms	286	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201
Mercury 2	3.6	8.9	0.0%	0		969ms	310	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
Mercury 2	3.0	10.0	0.0%	0		606ms	131	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
Mercury 2	7.3	5.9	83.3%	1		667ms	180	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
Mercury 2	5.3	7.2	44.4%	1		534ms	46	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
Mercury 2	4.8	10.0	0.0%	0		628ms	159	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
Mercury 2	6.5	10.0	50.0%	0		551ms	82	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
Mercury 2	3.1	10.0	0.0%	0		533ms	234	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0

Быстрое сравнение

Сменить пару сравнения

Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Mercury 2nonevsQwen3.5-9Bmedium Mercury 2nonevsElephantmedium Mercury 2nonevsMiniMax M2.7medium Mercury 2nonevsMistral Small 4medium Mercury 2nonevsMiniMax M2.5mediumБесплатно доступно Mercury 2nonevsgpt-oss-120bmediumБесплатно доступно Mercury 2nonevsGPT-5 Nanomedium Gemini 3.1 Pro PreviewmediumvsGPT-5.2 Chatnone Mercury 2nonevsGrok 4.1 Fastmedium