AI BENCHY Compare

MiniMax: MiniMax M2.5 vs OpenAI: gpt-oss-120b

Сводка

Сравнение benchmark MiniMax M2.5 (medium) vs gpt-oss-120b: MiniMax M2.5 (medium) лидирует по среднему баллу: 4.7 vs 4.0. gpt-oss-120b имеет более низкую стоимость benchmark: $0.010 vs $0.303. gpt-oss-120b быстрее: 21.61s vs 65.37s, с долей успешных попыток 46.0% vs 34.9%.

Рекомендуемая модель: gpt-oss-120b - Его балл близок к лучшему здесь (4.0 против 4.7), при этом он примерно в 31.4 раза дешевле, чем MiniMax M2.5 (medium).

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-09

Метрика	MiniMax M2.5 MiniMax M2.5 medium Релиз: 2026-02-12	gpt-oss-120b gpt-oss-120b none Релиз: 2025-08-05 Бесплатно доступно

Метрика	MiniMax M2.5 MiniMax M2.5 medium Релиз: 2026-02-12	gpt-oss-120b gpt-oss-120b none Релиз: 2025-08-05 Бесплатно доступно
Оценка	4.7	4.0
Ранг	#165	#183
Надежность	10.0	10.0
Стабильность	6.5	8.2
Тестов верно
Доля успешных попыток	46.0%	34.9%
Нестабильные тесты	9	2
Всего запусков	63	57
Стоимость за результат	7.900	0.168
Общая стоимость	$0.303	$0.010
Цена входа	$0.150 / 1M	$0.036 / 1M
Цена выхода	$0.900 / 1M	$0.180 / 1M
Общее число входных токенов	43,706	9,081
Выходные токены	109,495	51,664
Токены рассуждений	330,814	0
Время ответа (среднее)	65.37s	21.61s
Время ответа (макс.)	251.36s	113.71s
Время ответа (суммарно)	849.76s	345.79s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#165 MiniMax M2.5

medium

Неверный SVG

Стоимость: $0.000
Время: 300.0s
Токены: 0 tok

#183 gpt-oss-120b

none

Для этой модели еще не сгенерирован результат showcase.

Стоимость: $0.000
Время: -
Токены: 0 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
MiniMax M2.5	7.9	6.3	83.3%	2		20.82s	612	286	45,344
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	1,336	8,676	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
MiniMax M2.5	3.4	9.1	0.0%	0		188.58s	6,076	357	106,177
gpt-oss-120b	1.5	4.0	22.2%	1		9.57s	901	3,232	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
MiniMax M2.5	4.5	2.1	66.7%	1		60.39s	21,104	740	9,713
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
MiniMax M2.5	4.6	1.7	66.7%	2		7.48s	6,584	266	3,835
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	2,421	598	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
MiniMax M2.5	2.9	4.4	22.2%	2		237.27s	308	105,047	133,487
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	1,294	29,483	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
MiniMax M2.5	3.8	2.5	33.3%	1		6.63s	492	25	1,686
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	584	615	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
MiniMax M2.5	7.5	10.0	50.0%	0		621ms	699	156	1,495
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,043	1,940	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
MiniMax M2.5	5.3	7.2	44.4%	1		11.21s	495	1,069	9,605
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	1,188	3,982	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
MiniMax M2.5	10.0	10.0	100.0%	0		15.35s	7,123	269	937
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
MiniMax M2.5	3.0	10.0	0.0%	0		80.79s	213	1,280	18,535
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	314	3,138	0

Быстрое сравнение

Сменить пару сравнения

Ling-2.6-1TnonevsMiniMax M2.5medium MiniMax M2.5mediumvsGPT-5.4 Nanonone Mercury 2nonevsMiniMax M2.5medium Ring-2.6-1TnonevsMiniMax M2.5medium Ling-2.6-flashnonevsMiniMax M2.5medium MiniMax M2.5mediumvsNemotron 3 SupernoneБесплатно доступно MiniMax M2.5mediumvsGLM 4.7 Flashnone gpt-oss-120bnoneБесплатно доступноvsQwen3.5-9Bmedium MiniMax M2.5mediumvsGPT-4o-mininone Trinity Large PreviewnonevsMiniMax M2.5medium gpt-oss-120bnoneБесплатно доступноvsGLM 4.7 Flashmedium MiniMax M2.5mediumvsGrok 4.20none