AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Xiaomi: MiMo-V2-Pro

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-20

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	MiMo-V2-Pro MiMo-V2-Pro none Релиз: 2026-03-18

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	MiMo-V2-Pro MiMo-V2-Pro none Релиз: 2026-03-18
Оценка	9.6	5.8
Ранг	#2	#54
Стабильность	10.0	8.5
Тестов верно
Доля успешных попыток	94.1%	45.1%
Нестабильные тесты	0	3
Всего запусков	51	51
Стоимость за результат	3.257	0.659
Общая стоимость	$0.522	$0.040
???? ?????	$2.000 / 1M	$1.000 / 1M
???? ??????	$12.000 / 1M	$3.000 / 1M
Выходные токены	1,527	1,721
Токены рассуждений	36,341	0
Время ответа (среднее)	15.56s	2.31s
Время ответа (макс.)	40.61s	6.58s
Время ответа (суммарно)	155.64s	39.25s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
MiMo-V2-Pro	3.5	8.0	16.7%	1		1.80s	315	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
MiMo-V2-Pro	3.0	10.0	0.0%	0		6.58s	333	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
MiMo-V2-Pro	10.0	10.0	100.0%	0		1.39s	249	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
MiMo-V2-Pro	5.3	7.2	44.4%	1		1.78s	26	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
MiMo-V2-Pro	4.3	9.9	0.0%	0		2.44s	125	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
MiMo-V2-Pro	6.5	10.0	50.0%	0		2.51s	69	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
MiMo-V2-Pro	6.0	7.1	55.6%	1		1.83s	327	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
MiMo-V2-Pro	10.0	10.0	100.0%	0		4.39s	277	0

Быстрое сравнение

Сменить пару сравнения

MiniMax M2.5mediumБесплатно доступноvsMiMo-V2-Pronone Mistral Small 4mediumvsMiMo-V2-Pronone gpt-oss-120bmediumБесплатно доступноvsMiMo-V2-Pronone Grok 4.20 Multi-Agent BetamediumvsMiMo-V2-Pronone GPT-5 NanomediumvsMiMo-V2-Pronone Mercury 2mediumvsMiMo-V2-Pronone MiniMax M2.7mediumvsMiMo-V2-Pronone Qwen3 Coder NextmediumvsMiMo-V2-Pronone MiMo-V2-PrononevsGLM 4.7 Flashmedium GPT-5 MinimediumvsMiMo-V2-Pronone Nemotron 3 SupermediumБесплатно доступноvsMiMo-V2-Pronone Grok 4.1 FastmediumvsMiMo-V2-Pronone