AI BENCHY Compare

OpenAI: gpt-oss-120b vs Xiaomi: MiMo-V2.5-Pro

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	gpt-oss-120b gpt-oss-120b none Релиз: 2025-08-05 Бесплатно доступно	MiMo-V2.5-Pro MiMo-V2.5-Pro none Релиз: 2026-04-22

Метрика	gpt-oss-120b gpt-oss-120b none Релиз: 2025-08-05 Бесплатно доступно	MiMo-V2.5-Pro MiMo-V2.5-Pro none Релиз: 2026-04-22
Оценка	5.2	5.6
Ранг	#129	#115
Надежность	10.0	10.0
Стабильность	8.7	8.5
Тестов верно
Доля успешных попыток	36.8%	41.7%
Нестабильные тесты	3	4
Всего запусков	57	60
Стоимость за результат	0.201	0.637
Общая стоимость	$0.011	$0.039
???? ?????	$0.000 / 1M	$1.000 / 1M
???? ??????	$0.000 / 1M	$3.000 / 1M
Выходные токены	51,505	3,067
Токены рассуждений	0	0
Время ответа (среднее)	21.86s	1.84s
Время ответа (макс.)	113.71s	8.32s
Время ответа (суммарно)	349.78s	36.84s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	8,676	0
MiMo-V2.5-Pro	3.3	8.1	8.3%	1		2.67s	994	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0
MiMo-V2.5-Pro	5.0	6.7	33.3%	1		1.80s	479	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
MiMo-V2.5-Pro	3.0	10.0	0.0%	0		3.54s	596	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		1.32s	249	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0
MiMo-V2.5-Pro	5.3	10.0	33.3%	0		877ms	27	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	615	0
MiMo-V2.5-Pro	4.0	10.0	0.0%	0		2.58s	87	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	9.8	10.0	100.0%	0		5.10s	1,982	0
MiMo-V2.5-Pro	6.4	10.0	50.0%	0		1.03s	66	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	4.4	4.5	44.5%	2		9.51s	3,781	0
MiMo-V2.5-Pro	6.7	4.7	77.8%	2		1.32s	297	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
MiMo-V2.5-Pro	10.0	10.0	100.0%	0		3.30s	258	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	3,138	0
MiMo-V2.5-Pro	3.0	10.0	0.0%	0		1.89s	14	0

Быстрое сравнение

Сменить пару сравнения

gpt-oss-120bmediumБесплатно доступноvsMiMo-V2.5-Pronone MiniMax M2.5mediumБесплатно доступноvsMiMo-V2.5-Pronone MiniMax M2.7mediumvsgpt-oss-120bnoneБесплатно доступно Mistral Small 4mediumvsMiMo-V2.5-Pronone CobuddymediumБесплатно доступноvsMiMo-V2.5-Pronone Elephant AlphamediumvsMiMo-V2.5-Pronone gpt-oss-120bnoneБесплатно доступноvsElephant Alphamedium Mistral Small 4mediumvsgpt-oss-120bnoneБесплатно доступно MiniMax M2.5mediumБесплатно доступноvsgpt-oss-120bnoneБесплатно доступно Owl AlphamediumvsMiMo-V2.5-Pronone Nemotron 3 SupermediumБесплатно доступноvsMiMo-V2.5-Pronone gpt-oss-120bnoneБесплатно доступноvsQwen3 Coder Nextmedium