AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs MiniMax: MiniMax M2.5

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-29

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	MiniMax M2.5 MiniMax M2.5 medium Релиз: 2026-02-12 Бесплатно доступно

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	MiniMax M2.5 MiniMax M2.5 medium Релиз: 2026-02-12 Бесплатно доступно
Оценка	9.6	5.7
Ранг	#2	#94
Надежность	Н/Д	Н/Д
Стабильность	10.0	5.6
Тестов верно
Доля успешных попыток	94.4%	57.4%
Нестабильные тесты	0	10
Всего запусков	54	54
Стоимость за результат	3.400	4.987
Общая стоимость	$0.578	$0.250
???? ?????	$2.000 / 1M	$0.150 / 1M
???? ??????	$12.000 / 1M	$1.150 / 1M
Выходные токены	1,932	107,044
Токены рассуждений	40,542	206,422
Время ответа (среднее)	15.96s	39.65s
Время ответа (макс.)	40.61s	237.27s
Время ответа (суммарно)	175.52s	396.47s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
MiniMax M2.5	7.9	6.3	83.3%	2		20.82s	286	45,344

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201
MiniMax M2.5	3.0	10.0	0.0%	0		0ms	0	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
MiniMax M2.5	4.5	2.1	66.7%	1		60.39s	740	9,713

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
MiniMax M2.5	4.6	1.7	66.7%	2		7.48s	266	3,835

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
MiniMax M2.5	2.9	4.4	22.2%	2		237.27s	105,047	133,487

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
MiniMax M2.5	3.8	2.5	33.3%	1		6.63s	25	1,686

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
MiniMax M2.5	8.1	6.8	83.3%	1		4.64s	252	1,873

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
MiniMax M2.5	5.3	7.2	44.4%	1		11.54s	159	9,547

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
MiniMax M2.5	10.0	10.0	100.0%	0		15.35s	269	937

Быстрое сравнение

Сменить пару сравнения

MiniMax M2.5mediumБесплатно доступноvsQwen3.5-122B-A10Bnone MiniMax M2.5mediumБесплатно доступноvsQwen3.6 Flashnone MiniMax M2.5mediumБесплатно доступноvsMiMo-V2.5-Pronone MiniMax M2.5mediumБесплатно доступноvsQwen3.5 Plus 2026-04-20none MiniMax M2.5mediumБесплатно доступноvsGLM 4.7 Flashnone MiniMax M2.5mediumБесплатно доступноvsGLM 5.1none MiniMax M2.5mediumБесплатно доступноvsKimi K2.5none MiniMax M2.5mediumБесплатно доступноvsKimi K2.6none MiniMax M2.5mediumБесплатно доступноvsGLM 5 Turbonone MiniMax M2.5mediumБесплатно доступноvsQwen3.5-27Bnone MiniMax M2.5mediumБесплатно доступноvsGPT-5.4none MiniMax M2.5mediumБесплатно доступноvsMiMo-V2-Pronone