AI BENCHY Compare

xAI: Grok Build 0.1 vs Xiaomi: MiMo-V2-Omni

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Grok Build 0.1 Grok Build 0.1 none Релиз: 2026-05-21	MiMo-V2-Omni MiMo-V2-Omni medium Релиз: 2026-03-18

Метрика	Grok Build 0.1 Grok Build 0.1 none Релиз: 2026-05-21	MiMo-V2-Omni MiMo-V2-Omni medium Релиз: 2026-03-18
Оценка	6.6	6.9
Ранг	#82	#72
Надежность	10.0	10.0
Стабильность	8.0	8.7
Тестов верно
Доля успешных попыток	60.4%	58.3%
Нестабильные тесты	4	3
Всего запусков	57	52
Стоимость за результат	7.805	7.334
Общая стоимость	$0.547	$0.734
???? ?????	$1.000 / 1M	$0.400 / 1M
???? ??????	$2.000 / 1M	$2.000 / 1M
Выходные токены	267,275	1,952
Токены рассуждений	0	357,306
Время ответа (среднее)	28.69s	41.16s
Время ответа (макс.)	138.35s	299.23s
Время ответа (суммарно)	459.00s	823.26s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok Build 0.1	8.7	7.9	91.7%	1		6.30s	11,162	0
MiMo-V2-Omni	10.0	10.0	100.0%	0		2.75s	269	1,701

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok Build 0.1	10.0	10.0	100.0%	0		21.41s	16,568	0
MiMo-V2-Omni	3.4	4.8	16.7%	1		183.89s	292	174,314

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0
MiMo-V2-Omni	10.0	10.0	100.0%	0		25.87s	380	8,673

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok Build 0.1	4.7	1.6	66.7%	1		9.33s	6,359	0
MiMo-V2-Omni	10.0	10.0	100.0%	0		3.04s	155	591

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok Build 0.1	3.6	7.2	22.2%	1		103.71s	179,469	0
MiMo-V2-Omni	3.0	10.0	0.0%	0		47.89s	155	68,398

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok Build 0.1	4.3	10.0	0.0%	0		12.47s	6,647	0
MiMo-V2-Omni	5.4	2.5	66.7%	1		3.61s	136	492

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok Build 0.1	9.8	10.0	100.0%	0		7.36s	8,970	0
MiMo-V2-Omni	8.3	10.0	50.0%	0		4.99s	49	515

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok Build 0.1	6.4	7.7	55.6%	1		9.55s	14,982	0
MiMo-V2-Omni	5.9	7.2	55.6%	1		2.38s	210	860

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0
MiMo-V2-Omni	10.0	10.0	100.0%	0		13.98s	303	3,461

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Grok Build 0.1	3.0	10.0	0.0%	0		36.09s	23,118	0
MiMo-V2-Omni	3.0	10.0	0.0%	0		234.19s	3	98,301

Быстрое сравнение

Сменить пару сравнения

Qwen3.6 27BmediumvsGrok Build 0.1none DeepSeek V4 ProhighvsGrok Build 0.1none Kimi K2.5mediumvsGrok Build 0.1none Gemini 3.1 Flash LiteminimalvsGrok Build 0.1none Claude Sonnet 4.6nonevsMiMo-V2-Omnimedium Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Gemma 4 31BnoneБесплатно доступноvsMiMo-V2-Omnimedium Gemini 3.1 Flash LiteminimalvsMiMo-V2-Omnimedium DeepSeek V4 ProhighvsMiMo-V2-Omnimedium Ring-2.6-1TnonevsMiMo-V2-Omnimedium GPT-5 MinimediumvsGrok Build 0.1none Mercury 2mediumvsGrok Build 0.1none