AI BENCHY Compare

OpenAI: gpt-oss-120b vs Xiaomi: MiMo-V2-Pro

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-20

Метрика	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно	MiMo-V2-Pro MiMo-V2-Pro none Релиз: 2026-03-18

Метрика	gpt-oss-120b gpt-oss-120b medium Релиз: 2025-08-05 Бесплатно доступно	MiMo-V2-Pro MiMo-V2-Pro none Релиз: 2026-03-18
Оценка	6.0	5.8
Ранг	#47	#54
Стабильность	7.6	8.5
Тестов верно
Доля успешных попыток	51.0%	45.1%
Нестабильные тесты	5	3
Всего запусков	51	51
Стоимость за результат	0.136	0.659
Общая стоимость	$0.010	$0.040
???? ?????	$0.039 / 1M	$1.000 / 1M
???? ??????	$0.190 / 1M	$3.000 / 1M
Выходные токены	13,265	1,721
Токены рассуждений	34,330	0
Время ответа (среднее)	15.05s	2.31s
Время ответа (макс.)	50.92s	6.58s
Время ответа (суммарно)	150.55s	39.25s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	6.7	9.9	50.0%	0		10.21s	3,518	2,177
MiMo-V2-Pro	3.5	8.0	16.7%	1		1.80s	315	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	10.0	10.0	100.0%	0		31.18s	694	5,072
MiMo-V2-Pro	3.0	10.0	0.0%	0		6.58s	333	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	6.4	5.9	66.7%	1		1.98s	241	1,114
MiMo-V2-Pro	10.0	10.0	100.0%	0		1.39s	249	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	2.9	4.4	22.2%	2		50.92s	6,784	20,606
MiMo-V2-Pro	5.3	7.2	44.4%	1		1.78s	26	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	4.3	10.0	0.0%	0		7.90s	107	387
MiMo-V2-Pro	4.3	9.9	0.0%	0		2.44s	125	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	9.9	10.0	100.0%	0		7.63s	126	1,799
MiMo-V2-Pro	6.5	10.0	50.0%	0		2.51s	69	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	3.2	4.7	22.2%	2		11.80s	1,508	2,092
MiMo-V2-Pro	6.0	7.1	55.6%	1		1.83s	327	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
gpt-oss-120b	9.8	10.0	100.0%	0		6.91s	287	1,083
MiMo-V2-Pro	10.0	10.0	100.0%	0		4.39s	277	0

Быстрое сравнение

Сменить пару сравнения

Seed-2.0-Litenonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsQwen3.5-Flashnone Gemini 2.5 Flashnonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsQwen3.5-35B-A3Bnone MiniMax M2.5mediumБесплатно доступноvsMiMo-V2-Pronone gpt-oss-120bmediumБесплатно доступноvsHunter Alphanone Mistral Small 4mediumvsMiMo-V2-Pronone gpt-oss-120bmediumБесплатно доступноvsQwen3.5-122B-A10Bnone gpt-oss-120bmediumБесплатно доступноvsQwen3.5-27Bnone DeepSeek V3.2nonevsgpt-oss-120bmediumБесплатно доступно gpt-oss-120bmediumБесплатно доступноvsGLM 5 Turbonone gpt-oss-120bmediumБесплатно доступноvsGLM 4.7 Flashnone