AI BENCHY Compare

Qwen: Qwen3.7 Max vs Xiaomi: MiMo-V2.5

Сводка

Сравнение benchmark Qwen3.7 Max vs MiMo-V2.5: Qwen3.7 Max лидирует по среднему баллу: 6.9 vs 6.7. Qwen3.7 Max имеет более низкую стоимость benchmark: $0.054 vs $0.061. Qwen3.7 Max быстрее: 1.30s vs 27.11s, с долей успешных попыток 66.7% vs 69.8%.

Рекомендуемая модель: Qwen3.7 Max - Здесь у него лучший балл (6.9), и он отвечает примерно в 20.9 раза быстрее, чем MiMo-V2.5.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-02

Метрика	Qwen3.7 Max Qwen3.7 Max none Релиз: 2026-05-22	MiMo-V2.5 MiMo-V2.5 medium Релиз: 2026-04-22

Метрика	Qwen3.7 Max Qwen3.7 Max none Релиз: 2026-05-22	MiMo-V2.5 MiMo-V2.5 medium Релиз: 2026-04-22
Оценка	6.9	6.7
Ранг	#71	#79
Надежность	10.0	10.0
Стабильность	10.0	8.1
Тестов верно
Доля успешных попыток	66.7%	69.8%
Нестабильные тесты	0	5
Всего запусков	63	63
Стоимость за результат	0.744	2.966
Общая стоимость	$0.054	$0.061
Цена входа	$1.250 / 1M	$0.105 / 1M
Цена выхода	$3.750 / 1M	$0.280 / 1M
Общее число входных токенов	37,107	41,838
Выходные токены	1,994	2,827
Токены рассуждений	0	198,898
Время ответа (среднее)	1.30s	27.11s
Время ответа (макс.)	3.92s	162.44s
Время ответа (суммарно)	27.21s	569.38s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#71 Qwen3.7 Max

none

Стоимость: $0.046
Время: 195.0s
Токены: 12,171 tok

#79 MiMo-V2.5

medium

Стоимость: $0.002
Время: 54.8s
Токены: 5,247 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	6.5	10.0	50.0%	0		1.08s	696	242	0
MiMo-V2.5	10.0	10.0	100.0%	0		4.14s	621	281	1,739

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	5.5	10.0	33.3%	0		1.35s	7,911	582	0
MiMo-V2.5	6.2	4.7	66.7%	2		97.14s	7,422	557	81,977

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	3.0	10.0	0.0%	0		2.17s	9,549	171	0
MiMo-V2.5	10.0	10.0	100.0%	0		16.86s	15,060	363	7,609

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		1.35s	7,794	243	0
MiMo-V2.5	2.7	5.7	16.7%	1		6.33s	7,746	306	5,714

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	7.7	10.0	66.7%	0		975ms	789	15	0
MiMo-V2.5	5.3	10.0	33.3%	0		34.53s	735	507	49,478

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		1.04s	522	120	0
MiMo-V2.5	5.4	2.5	66.7%	1		5.37s	492	121	418

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		943ms	711	72	0
MiMo-V2.5	9.9	10.0	100.0%	0		1.80s	672	88	801

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		1.13s	714	314	0
MiMo-V2.5	8.2	7.2	88.9%	1		20.25s	660	279	33,254

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	10.0	10.0	100.0%	0		3.92s	8,211	222	0
MiMo-V2.5	10.0	10.0	100.0%	0		7.29s	8,220	303	2,424

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.7 Max	3.0	10.0	0.0%	0		856ms	210	13	0
MiMo-V2.5	3.0	10.0	0.0%	0		51.29s	210	22	15,484

Быстрое сравнение

Сменить пару сравнения

Gemini 3.5 FlashminimalvsQwen3.7 Maxnone Ring-2.6-1TmediumvsQwen3.7 Maxnone Gemini 3.5 FlashminimalvsMiMo-V2.5medium Kimi K2.7 CodemediumvsQwen3.7 Maxnone gpt-oss-120bmediumБесплатно доступноvsQwen3.7 Maxnone Gemini 3 Flash PreviewnonevsMiMo-V2.5medium Laguna XS 2.1mediumБесплатно доступноvsQwen3.7 Maxnone GPT-5 NanomediumvsQwen3.7 Maxnone Qwen3.7 MaxnonevsGLM 5.1medium Qwen3.7 MaxnonevsStep 3.7 Flashhigh Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5medium Qwen3.7 MaxnonevsStep 3.5 Flashmedium