Сравниваемые модели

Бенчмарк-сравнение Grok 4.20 Beta (medium) vs Grok 4.20 Multi Agent Beta (medium) vs Grok 4.1 Fast (medium) vs Gemini 3 Flash Preview (medium): Gemini 3 Flash Preview (medium) лидирует по Оценка со значением 9.6. Grok 4.1 Fast (medium) лидирует по Надежность со значением 10.0. У Grok 4.1 Fast (medium) самый низкий Общая стоимость: $0.069. Grok 4.20 Multi Agent Beta (medium) самый быстрый: 9.69s.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-28

Ранг: #147
Общее число выходных токенов: 93,212
Время ответа (среднее): 9.75s
Общая стоимость: $0.750

Ранг: #203
Общее число выходных токенов: 600,042
Время ответа (среднее): 9.69s
Общая стоимость: $5.599

Ранг: #207
Общее число выходных токенов: 98,340
Время ответа (среднее): 23.85s
Общая стоимость: $0.069

Ранг: #3
Общее число выходных токенов: 232,650
Время ответа (среднее): 19.20s
Общая стоимость: $0.742

Рекомендуемая модель Gemini 3 Flash Preview (medium)

Здесь у него лучший балл (9.6), при этом он примерно в 2.9 раза дешевле, чем другие модели в этом сравнении.

Подробное сравнение

Метрика	Grok 4.20 Beta Grok 4.20 Beta medium Релиз: 2026-03-12	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Релиз: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Релиз: 2025-11-19	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Релиз: 2025-12-17

Метрика	Grok 4.20 Beta Grok 4.20 Beta medium Релиз: 2026-03-12	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium Релиз: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Релиз: 2025-11-19	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Релиз: 2025-12-17
Оценка	6.0	4.8	4.7	9.6
Ранг	#147	#203	#207	#3
Надежность	Н/Д	Н/Д	10.0	10.0
Стабильность	7.8	6.4	6.3	9.7
Тестов верно
Доля успешных попыток	66.7%	48.5%	53.0%	98.5%
Нестабильные тесты	1	5	6	1
Всего запусков	52	52	57	66
Стоимость за результат	4.505	62.923	0.642	3.533
Общая стоимость	$0.750	$5.599	$0.069	$0.742
Цена входа	$5.805 / 1M	$4.235 / 1M	$0.484 / 1M	$0.500 / 1M
Цена выхода	$5.805 / 1M	$4.235 / 1M	$0.484 / 1M	$3.000 / 1M
Общее число входных токенов	35,955	721,952	42,845	87,861
Выходные токены	1,647	294,668	2,006	5,486
Токены рассуждений	91,565	305,374	96,334	227,164
Время ответа (среднее)	9.75s	9.69s	23.85s	19.20s
Время ответа (макс.)	31.36s	35.28s	121.79s	117.26s
Время ответа (суммарно)	175.48s	155.07s	286.16s	422.42s

Генерация showcase моделей

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#147 Grok 4.20 Beta

medium

Стоимость: $0.034
Время: 91.0s
Токены: 13,523 tok

#203 Grok 4.20 Multi Agent Beta

medium

Стоимость: $0.261
Время: 123.4s
Токены: 199,344 tok

#207 Grok 4.1 Fast

medium

Grok 4.1 Fast is deprecated. xAI recommends switching to Grok 4.3 (https://openrouter.ai/x-ai/grok-4.3)

Стоимость: $0.000
Время: 0.1s
Токены: 0 tok

#3 Gemini 3 Flash Preview

medium

Стоимость: $0.010
Время: 18.4s
Токены: 3,351 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20 Beta	8.7	7.9	91.7%	1	3.16s	2,010	268	7,583
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2	3.46s	90,925	33,706	33,077
Grok 4.1 Fast	8.7	7.9	91.7%	1	3.81s	2,358	108	4,741
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	3.88s	494	330	3,216

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20 Beta	3.3	3.3	33.3%	0	31.36s	360	81	3,987
Grok 4.20 Multi Agent Beta	3.3	3.3	33.3%	0	27.11s	13,212	86	13,141
Grok 4.1 Fast	7.8	4.0	11.1%	1	23.58s	1,167	821	6,703
Gemini 3 Flash Preview	8.6	7.6	88.9%	1	84.40s	8,122	462	161,084

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20 Beta	5.0	5.0	50.0%	20.93s	12,909	227	12,212
Grok 4.20 Multi Agent Beta	1.5	5.0	0.0%	0ms	0	0	0
Grok 4.1 Fast	5.0	5.0	50.0%	37.64s	13,899	261	12,272
Gemini 3 Flash Preview	10.0	10.0	100.0%	26.75s	63,717	3,831	23,496

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20 Beta	10.0	10.0	100.0%	4.01s	7,761	180	5,281
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	5.54s	97,232	25,306	25,051
Grok 4.1 Fast	10.0	10.0	100.0%	6.63s	8,001	180	5,409
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.43s	7,548	279	4,893

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20 Beta	5.3	10.0	33.3%	0	21.33s	1,764	251	40,255
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1	24.67s	328,253	164,609	163,647
Grok 4.1 Fast	5.8	4.4	66.7%	2	121.79s	1,777	11	37,657
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	15.27s	633	12	21,684

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20 Beta	10.0	10.0	100.0%	0	5.78s	825	72	3,440
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1	6.40s	41,387	15,848	15,746
Grok 4.1 Fast	4.2	9.9	0.0%	0	16.25s	912	127	3,456
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	5.19s	486	72	1,905

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20 Beta	9.8	10.0	100.0%	4.89s	1,362	57	7,123
Grok 4.20 Multi Agent Beta	9.8	10.0	100.0%	3.52s	43,923	19,752	19,617
Grok 4.1 Fast	6.5	10.0	50.0%	4.63s	1,536	54	3,326
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.04s	615	72	2,709

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20 Beta	10.0	10.0	100.0%	0	3.52s	1,689	328	6,300
Grok 4.20 Multi Agent Beta	6.7	7.9	55.6%	1	5.19s	107,020	35,361	35,095
Grok 4.1 Fast	5.3	7.2	44.4%	1	7.40s	1,950	169	5,904
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	4.05s	558	183	4,365

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20 Beta	3.0	10.0	0.0%	0	12.39s	7,275	183	5,384
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0	0ms	0	0	0
Grok 4.1 Fast	2.8	1.6	33.3%	1	27.71s	10,627	260	11,485
Gemini 3 Flash Preview	10.0	10.0	100.0%	0	12.60s	5,532	234	1,487

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Grok 4.20 Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.20 Multi Agent Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.1 Fast	3.0	10.0	0.0%	25.52s	618	15	5,381
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.50s	156	11	2,325

Быстрое сравнение

Сменить пару сравнения