Сравниваемые модели

Бенчмарк-сравнение Grok 4.20 (medium) vs Grok 4.20 Beta (medium) vs Grok 4.3 (medium): Grok 4.3 (medium) лидирует по Оценка со значением 7.1. Grok 4.20 (medium) лидирует по Надежность со значением 10.0. У Grok 4.20 Beta (medium) самый низкий Общая стоимость: $0.750. Grok 4.20 Beta (medium) самый быстрый: 9.75s.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-08-01

Ранг: #90
Общее число выходных токенов: 259,340
Время ответа (среднее): 29.47s
Общая стоимость: $0.777

Ранг: #152
Общее число выходных токенов: 93,212
Время ответа (среднее): 9.75s
Общая стоимость: $0.750

Ранг: #88
Общее число выходных токенов: 241,421
Время ответа (среднее): 47.45s
Общая стоимость: $0.779

Рекомендуемая модель Grok 4.20 (medium)

У него самый высокий балл в этом сравнении (7.1) и лучший общий баланс стоимости и времени ответа среди всех 3 моделей.

Подробное сравнение

Метрика	Grok 4.20 Grok 4.20 medium Релиз: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium Релиз: 2026-03-12	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01

Метрика	Grok 4.20 Grok 4.20 medium Релиз: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium Релиз: 2026-03-12	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка	7.1	6.0	7.1
Ранг	#90	#152	#88
Надежность	10.0	Н/Д	10.0
Стабильность	8.5	7.8	8.6
Тестов верно
Доля успешных попыток	63.6%	66.7%	68.2%
Нестабильные тесты	4	1	4
Всего запусков	66	52	66
Стоимость за результат	9.709	4.505	5.990
Общая стоимость	$0.777	$0.750	$0.779
Цена входа	$1.250 / 1M	$5.805 / 1M	$1.250 / 1M
Цена выхода	$2.500 / 1M	$5.805 / 1M	$2.500 / 1M
Общее число входных токенов	102,791	35,955	140,031
Выходные токены	5,363	1,647	13,739
Токены рассуждений	253,977	91,565	227,682
Время ответа (среднее)	29.47s	9.75s	47.45s
Время ответа (макс.)	199.66s	31.36s	216.69s
Время ответа (суммарно)	648.35s	175.48s	1043.83s

Генерация showcase моделей

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#90 xAI: Grok 4.20

medium

Стоимость: $0.041
Время: 110.3s
Токены: 16,336 tok

#152 Grok 4.20 Beta

medium

Стоимость: $0.034
Время: 91.0s
Токены: 13,523 tok

#88 xAI: Grok 4.3

medium

Стоимость: $0.009
Время: 19.0s
Токены: 3,661 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20	8.2	7.9	83.3%	1	3.95s	2,010	287	8,312
Grok 4.20 Beta	8.7	7.9	91.7%	1	3.16s	2,010	268	7,583
Grok 4.3	10.0	10.0	100.0%	0	8.83s	2,010	88	8,207

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20	6.3	6.6	55.6%	1	109.93s	8,307	268	103,150
Grok 4.20 Beta	3.3	3.3	33.3%	0	31.36s	360	81	3,987
Grok 4.3	5.9	7.7	44.4%	1	41.23s	8,340	1,028	31,226

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20	8.7	6.9	83.3%	1	42.25s	71,267	3,776	44,009
Grok 4.20 Beta	5.0	5.0	50.0%	0	20.93s	12,909	227	12,212
Grok 4.3	6.5	10.0	50.0%	0	55.07s	108,468	11,992	21,601

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20	10.0	10.0	100.0%	4.17s	7,761	180	5,333
Grok 4.20 Beta	10.0	10.0	100.0%	4.01s	7,761	180	5,281
Grok 4.3	10.0	10.0	100.0%	18.97s	7,761	180	9,546

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20	5.3	10.0	33.3%	0	27.03s	1,764	375	49,339
Grok 4.20 Beta	5.3	10.0	33.3%	0	21.33s	1,764	251	40,255
Grok 4.3	5.3	7.2	44.4%	1	181.74s	1,764	14	111,300

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20	3.9	2.6	33.3%	1	24.48s	825	65	6,440
Grok 4.20 Beta	10.0	10.0	100.0%	0	5.78s	825	72	3,440
Grok 4.3	5.4	2.5	66.7%	1	24.70s	825	70	5,020

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20	9.8	10.0	100.0%	4.26s	1,362	57	6,419
Grok 4.20 Beta	9.8	10.0	100.0%	4.89s	1,362	57	7,123
Grok 4.3	9.8	10.0	100.0%	18.58s	1,362	57	8,713

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20	7.7	10.0	66.7%	0	6.22s	1,689	149	7,913
Grok 4.20 Beta	10.0	10.0	100.0%	0	3.52s	1,689	328	6,300
Grok 4.3	5.9	7.2	55.6%	1	22.52s	1,689	128	14,468

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20	3.0	10.0	0.0%	13.68s	7,275	197	6,620
Grok 4.20 Beta	3.0	10.0	0.0%	12.39s	7,275	183	5,384
Grok 4.3	10.0	10.0	100.0%	17.66s	7,263	168	4,615

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20	3.0	10.0	0.0%	63.48s	531	9	16,442
Grok 4.20 Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.3	3.0	10.0	0.0%	44.47s	549	14	12,986

Быстрое сравнение

Сменить пару сравнения

Qwen3.7 PlusnonevsGrok 4.3medium Qwen3.7 PlusnonevsGrok 4.20medium KAT-Coder-Pro V2.5highvsGrok 4.3medium KAT-Coder-Pro V2.5highvsGrok 4.20medium Step 3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.3medium Gemini 3.5 FlashnonevsGrok 4.20medium Step 3.7 FlashlowvsGrok 4.20medium Qwen3.7 FlashlowvsGrok 4.3medium Claude Opus 4.8nonevsGrok 4.20medium Gemini 3.5 FlashnonevsGrok 4.3medium Qwen3.7 FlashlowvsGrok 4.20medium