AI BENCHY Compare

Qwen: Qwen3.7 Max vs Xiaomi: MiMo-V2-Pro

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Qwen3.7 Max Qwen3.7 Max none Релиз: 2026-05-22	MiMo-V2-Pro MiMo-V2-Pro medium Релиз: 2026-03-18

Метрика	Qwen3.7 Max Qwen3.7 Max none Релиз: 2026-05-22	MiMo-V2-Pro MiMo-V2-Pro medium Релиз: 2026-03-18
Оценка	7.9	7.6
Ранг	#26	#44
Надежность	10.0	9.5
Стабильность	10.0	7.9
Тестов верно
Доля успешных попыток	70.0%	76.7%
Нестабильные тесты	0	5
Всего запусков	60	60
Стоимость за результат	0.719	2.453
Общая стоимость	$0.101	$0.295
???? ?????	$2.500 / 1M	$1.000 / 1M
???? ??????	$7.500 / 1M	$3.000 / 1M
Выходные токены	1,988	2,556
Токены рассуждений	0	81,879
Время ответа (среднее)	1.30s	22.19s
Время ответа (макс.)	3.92s	136.29s
Время ответа (суммарно)	25.95s	443.77s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.7 Max	6.5	10.0	50.0%	0		1.08s	242	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		2.86s	251	1,154

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.7 Max	6.8	10.0	50.0%	0		1.39s	576	0
MiMo-V2-Pro	7.5	6.0	83.3%	1		94.21s	527	37,424

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.7 Max	3.0	10.0	0.0%	0		2.17s	171	0
MiMo-V2-Pro	4.7	1.6	66.7%	1		64.71s	380	14,186

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		1.35s	243	0
MiMo-V2-Pro	7.3	5.8	83.3%	1		17.20s	260	7,484

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.7 Max	7.7	10.0	66.7%	0		975ms	15	0
MiMo-V2-Pro	5.3	10.0	33.3%	0		8.82s	170	2,158

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		1.04s	120	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		4.92s	184	400

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		943ms	72	0
MiMo-V2-Pro	9.9	10.0	100.0%	0		3.36s	83	667

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		1.13s	314	0
MiMo-V2-Pro	6.4	4.4	77.8%	2		5.26s	410	1,700

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		3.92s	222	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		8.19s	263	864

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.7 Max	3.0	10.0	0.0%	0		856ms	13	0
MiMo-V2-Pro	3.0	10.0	0.0%	0		82.71s	28	15,842

Быстрое сравнение

Сменить пару сравнения

GPT-5.4mediumvsQwen3.7 Maxnone Qwen3.7 MaxnonevsGLM 5 Turbomedium GPT-5.2 ChatnonevsMiMo-V2-Promedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Promedium Gemini 3.5 FlashminimalvsQwen3.7 Maxnone Gemini 3 Flash PreviewnonevsMiMo-V2-Promedium Gemma 4 31BmediumБесплатно доступноvsQwen3.7 Maxnone Qwen3.7 MaxnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Promedium Seed-2.0-LitemediumvsQwen3.7 Maxnone Gemini 3.1 Flash LitelowvsMiMo-V2-Promedium Gemini 3.1 Flash Lite PreviewmediumvsQwen3.7 Maxnone