AI BENCHY Compare

Inception: Mercury 2 vs xAI: Grok 4.3

Сводка

Сравнение benchmark Mercury 2 vs Grok 4.3: Grok 4.3 лидирует по среднему баллу: 7.7 vs 7.5. Mercury 2 имеет более низкую стоимость benchmark: $0.058 vs $0.614. Mercury 2 быстрее: 2.24s vs 47.51s, с долей успешных попыток 54.0% vs 71.4%.

Рекомендуемая модель: Mercury 2 - Его балл близок к лучшему здесь (7.5 против 7.7), при этом он примерно в 10.6 раза дешевле, чем Grok 4.3.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-18

Метрика	Mercury 2 Mercury 2 medium Релиз: 2026-02-24	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01

Метрика	Mercury 2 Mercury 2 medium Релиз: 2026-02-24	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка	7.5	7.7
Ранг	#44	#37
Надежность	10.0	10.0
Стабильность	8.8	8.5
Тестов верно
Доля успешных попыток	54.0%	71.4%
Нестабильные тесты	3	4
Всего запусков	63	63
Стоимость за результат	0.578	4.724
Общая стоимость	$0.058	$0.614
Цена входа	$0.250 / 1M	$1.250 / 1M
Цена выхода	$0.750 / 1M	$2.500 / 1M
Общее число входных токенов	35,116	44,472
Выходные токены	4,048	1,981
Токены рассуждений	61,219	221,382
Время ответа (среднее)	2.24s	47.51s
Время ответа (макс.)	14.63s	216.69s
Время ответа (суммарно)	44.72s	997.68s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#44 Mercury 2

medium

Стоимость: $0.002
Время: 2.1s
Токены: 1,702 tok

#37 xAI: Grok 4.3

medium

Стоимость: $0.009
Время: 19.0s
Токены: 3,661 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	6.9	9.9	50.0%	0		1.12s	554	2,546	2,609
Grok 4.3	10.0	10.0	100.0%	0		8.83s	2,010	88	8,207

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	8.2	7.7	77.8%	1		2.04s	7,065	296	11,328
Grok 4.3	5.9	7.7	44.4%	1		41.23s	8,340	1,028	31,226

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		3.28s	12,909	268	4,887
Grok 4.3	10.0	10.0	100.0%	0		63.99s	12,909	234	15,301

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	7.3	5.9	83.3%	1		1.11s	6,234	183	1,656
Grok 4.3	10.0	10.0	100.0%	0		18.97s	7,761	180	9,546

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	2.9	7.2	11.1%	1		6.48s	695	41	30,754
Grok 4.3	5.3	7.2	44.4%	1		181.74s	1,764	14	111,300

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	4.8	10.0	0.0%	0		821ms	456	137	542
Grok 4.3	5.4	2.5	66.7%	1		24.70s	825	70	5,020

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		1.07s	340	14	958
Grok 4.3	9.8	10.0	100.0%	0		18.58s	1,362	57	8,713

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	5.4	10.0	33.3%	0		949ms	601	361	2,781
Grok 4.3	5.9	7.2	55.6%	1		22.52s	1,689	128	14,468

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	10.0	10.0	100.0%	0		1.89s	6,080	180	1,956
Grok 4.3	10.0	10.0	100.0%	0		17.66s	7,263	168	4,615

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Mercury 2	3.0	10.0	0.0%	0		2.58s	182	22	3,748
Grok 4.3	3.0	10.0	0.0%	0		44.47s	549	14	12,986

Быстрое сравнение

Сменить пару сравнения

Step 3.7 FlashlowvsGrok 4.3medium Mercury 2mediumvsGPT-5.3 Chatnone DeepSeek V4 ProhighvsMercury 2medium DeepSeek V4 ProhighvsGrok 4.3medium Mercury 2mediumvsStep 3.7 Flashlow Gemini 3 Flash PreviewlowvsMercury 2medium GPT-5.3 ChatnonevsGrok 4.3medium Claude Sonnet 4.6nonevsMercury 2medium Claude Opus 4.8nonevsMercury 2medium Gemini 3 Flash PreviewlowvsGrok 4.3medium DeepSeek V4 PrononevsMercury 2medium Mercury 2mediumvsQwen3.7 Plusnone