AI BENCHY Compare

Google: Gemma 4 31B vs xAI: Grok Build 0.1

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02 Бесплатно доступно	Grok Build 0.1 Grok Build 0.1 none Релиз: 2026-05-21

Метрика	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02 Бесплатно доступно	Grok Build 0.1 Grok Build 0.1 none Релиз: 2026-05-21
Оценка	8.0	6.6
Ранг	#23	#82
Надежность	6.7	10.0
Стабильность	9.2	8.0
Тестов верно
Доля успешных попыток	75.0%	60.4%
Нестабильные тесты	2	4
Всего запусков	60	57
Стоимость за результат	0.205	7.805
Общая стоимость	$0.029	$0.547
???? ?????	$0.120 / 1M	$1.000 / 1M
???? ??????	$0.370 / 1M	$2.000 / 1M
Выходные токены	19,604	267,275
Токены рассуждений	49,687	0
Время ответа (среднее)	35.51s	28.69s
Время ответа (макс.)	150.90s	138.35s
Время ответа (суммарно)	639.17s	459.00s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	962	2,046
Grok Build 0.1	8.7	7.9	91.7%	1		6.30s	11,162	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.8	1.6	50.0%	2		110.94s	8,344	17,172
Grok Build 0.1	10.0	10.0	100.0%	0		21.41s	16,568	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	1,822	2,951
Grok Build 0.1	4.7	1.6	66.7%	1		9.33s	6,359	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	4,349	8,985
Grok Build 0.1	3.6	7.2	22.2%	1		103.71s	179,469	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	105	888
Grok Build 0.1	4.3	10.0	0.0%	0		12.47s	6,647	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	533	2,035
Grok Build 0.1	9.8	10.0	100.0%	0		7.36s	8,970	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	9.9	10.0	100.0%	0		27.63s	1,797	5,596
Grok Build 0.1	6.4	7.7	55.6%	1		9.55s	14,982	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		90.14s	1,692	10,014
Grok Build 0.1	3.0	10.0	0.0%	0		36.09s	23,118	0

Быстрое сравнение

Сменить пару сравнения

Qwen3.6 27BmediumvsGrok Build 0.1none DeepSeek V4 ProhighvsGrok Build 0.1none Kimi K2.5mediumvsGrok Build 0.1none Gemini 3.1 Flash LiteminimalvsGrok Build 0.1none Gemma 4 31BmediumБесплатно доступноvsQwen3.7 Maxnone GPT-5 MinimediumvsGrok Build 0.1none Grok Build 0.1nonevsMiMo-V2-Omnimedium Gemma 4 31BmediumБесплатно доступноvsGPT-5.2 Chatnone Mercury 2mediumvsGrok Build 0.1none DeepSeek V3.2mediumvsGrok Build 0.1none Qwen3.5-35B-A3BmediumvsGrok Build 0.1none Seed-2.0-MinimediumvsGrok Build 0.1none