AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs xAI: Grok 4.1 Fast

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-01

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	Grok 4.1 Fast Grok 4.1 Fast none Релиз: 2025-11-19

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	Grok 4.1 Fast Grok 4.1 Fast none Релиз: 2025-11-19
Оценка	9.6	4.5
Ранг	#2	#130
Надежность	Н/Д	Н/Д
Стабильность	10.0	8.7
Тестов верно
Доля успешных попыток	94.4%	24.1%
Нестабильные тесты	0	3
Всего запусков	54	54
Стоимость за результат	3.400	0.269
Общая стоимость	$0.578	$0.009
???? ?????	$2.000 / 1M	$0.200 / 1M
???? ??????	$12.000 / 1M	$0.500 / 1M
Выходные токены	1,932	1,721
Токены рассуждений	40,542	0
Время ответа (среднее)	15.96s	1.76s
Время ответа (макс.)	40.61s	5.51s
Время ответа (суммарно)	175.52s	19.35s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
Grok 4.1 Fast	3.2	10.0	0.0%	0		1.07s	235	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		19.88s	405	4,201
Grok 4.1 Fast	5.3	3.4	33.3%	1		1.79s	567	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
Grok 4.1 Fast	3.0	10.0	0.0%	0		3.33s	105	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
Grok 4.1 Fast	10.0	10.0	100.0%	0		943ms	180	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
Grok 4.1 Fast	5.9	7.2	55.6%	1		1.06s	15	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
Grok 4.1 Fast	4.4	9.9	0.0%	0		1.08s	112	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
Grok 4.1 Fast	3.0	10.0	0.0%	0		923ms	56	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
Grok 4.1 Fast	3.2	10.0	0.0%	0		1.28s	243	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
Grok 4.1 Fast	2.8	1.6	33.3%	1		5.51s	208	0

Быстрое сравнение

Сменить пару сравнения

Grok 4.1 FastnonevsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3 Coder NextmediumvsGrok 4.1 Fastnone Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Nemotron 3 Nano Omni 30b A3b ReasoningmediumБесплатно доступноvsGrok 4.1 Fastnone Elephant AlphamediumvsGrok 4.1 Fastnone MiniMax M2.7mediumvsGrok 4.1 Fastnone Gemini 3.1 Pro PreviewmediumvsHY3 PreviewhighБесплатно доступно MiniMax M2.5mediumБесплатно доступноvsGrok 4.1 Fastnone Mistral Small 4mediumvsGrok 4.1 Fastnone Owl AlphamediumvsGrok 4.1 Fastnone