AI BENCHY Compare

DeepSeek: DeepSeek V3.2 vs Google: Gemma 4 31B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-02

Метрика	DeepSeek V3.2 DeepSeek V3.2 none Релиз: 2025-12-01	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02

Метрика	DeepSeek V3.2 DeepSeek V3.2 none Релиз: 2025-12-01	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02
Оценка	6.4	8.6
Ранг	#50	#5
Стабильность	8.5	9.6
Тестов верно
Доля успешных попыток	51.0%	80.4%
Нестабильные тесты	3	1
Всего запусков	51	51
Стоимость за результат	0.220	0.109
Общая стоимость	$0.016	$0.015
???? ?????	$0.260 / 1M	$0.140 / 1M
???? ??????	$0.380 / 1M	$0.400 / 1M
Выходные токены	7,831	9,568
Токены рассуждений	0	22,501
Время ответа (среднее)	12.35s	21.81s
Время ответа (макс.)	115.89s	68.92s
Время ответа (суммарно)	209.94s	327.16s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	3.2	9.8	0.0%	0		7.63s	1,419	0
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	962	2,046

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	6.5	10.0	0.0%	0		115.89s	2,887	0
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	6.3	5.8	66.7%	1		9.42s	1,710	0
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	1,822	2,951

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	3.6	7.2	22.2%	1		1.61s	24	0
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	4,349	8,985

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	10.0	10.0	100.0%	0		2.86s	67	0
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	105	888

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	10.0	10.0	100.0%	0		1.52s	66	0
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	533	2,035

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	8.5	7.5	88.9%	1		7.37s	1,136	0
Gemma 4 31B	8.8	7.9	88.9%	1		27.63s	1,797	5,596

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
DeepSeek V3.2	10.0	10.0	100.0%	0		11.85s	522	0
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0

Быстрое сравнение

Сменить пару сравнения

DeepSeek V3.2nonevsMercury 2medium DeepSeek V3.2nonevsGPT-5 Nanomedium DeepSeek V3.2nonevsGrok 4.20 Multi Agent Betamedium DeepSeek V3.2nonevsgpt-oss-120bmediumБесплатно доступно DeepSeek V3.2nonevsMiniMax M2.5mediumБесплатно доступно DeepSeek V3.2nonevsGPT-5 Minimedium DeepSeek V3.2nonevsNemotron 3 SupermediumБесплатно доступно DeepSeek V3.2nonevsGrok 4.1 Fastmedium DeepSeek V3.2nonevsHunter Alphamedium Gemma 4 31BmediumvsGPT-5.2 Chatnone DeepSeek V3.2nonevsGPT-5.4 Minimedium DeepSeek V3.2nonevsGrok 4.20medium