AI BENCHY Compare

Inception: Mercury 2 vs xAI: Grok Build 0.1

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Mercury 2 Mercury 2 medium Релиз: 2026-02-24	Grok Build 0.1 Grok Build 0.1 none Релиз: 2026-05-21

Метрика	Mercury 2 Mercury 2 medium Релиз: 2026-02-24	Grok Build 0.1 Grok Build 0.1 none Релиз: 2026-05-21
Оценка	6.3	6.6
Ранг	#90	#82
Надежность	10.0	10.0
Стабильность	8.4	8.0
Тестов верно
Доля успешных попыток	50.0%	60.4%
Нестабильные тесты	4	4
Всего запусков	60	57
Стоимость за результат	0.687	7.805
Общая стоимость	$0.055	$0.547
???? ?????	$0.250 / 1M	$1.000 / 1M
???? ??????	$0.750 / 1M	$2.000 / 1M
Выходные токены	4,015	267,275
Токены рассуждений	58,382	0
Время ответа (среднее)	2.27s	28.69s
Время ответа (макс.)	14.63s	138.35s
Время ответа (суммарно)	43.15s	459.00s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	6.9	9.9	50.0%	0		1.12s	2,546	2,609
Grok Build 0.1	8.7	7.9	91.7%	1		6.30s	11,162	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	7.2	6.5	66.7%	1		2.29s	270	8,514
Grok Build 0.1	10.0	10.0	100.0%	0		21.41s	16,568	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	7.3	5.9	83.3%	1		1.11s	183	1,656
Grok Build 0.1	4.7	1.6	66.7%	1		9.33s	6,359	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	2.9	7.2	11.1%	1		6.48s	41	30,754
Grok Build 0.1	3.6	7.2	22.2%	1		103.71s	179,469	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	4.8	10.0	0.0%	0		821ms	137	542
Grok Build 0.1	4.3	10.0	0.0%	0		12.47s	6,647	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958
Grok Build 0.1	9.8	10.0	100.0%	0		7.36s	8,970	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	3.8	7.3	22.2%	1		934ms	354	2,758
Grok Build 0.1	6.4	7.7	55.6%	1		9.55s	14,982	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mercury 2	3.0	10.0	0.0%	0		2.58s	22	3,748
Grok Build 0.1	3.0	10.0	0.0%	0		36.09s	23,118	0

Быстрое сравнение

Сменить пару сравнения

Qwen3.6 27BmediumvsGrok Build 0.1none DeepSeek V4 ProhighvsGrok Build 0.1none Mercury 2mediumvsGLM 5none Kimi K2.5mediumvsGrok Build 0.1none Gemini 3.1 Flash LiteminimalvsGrok Build 0.1none Gemma 4 26B A4BnoneБесплатно доступноvsMercury 2medium Gemini 2.5 FlashnonevsMercury 2medium Mercury 2mediumvsMiMo-V2-Omninone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none DeepSeek V4 PrononevsMercury 2medium Mercury 2mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsMercury 2medium