AI BENCHY Compare

Google: Gemma 4 31B vs OpenAI: GPT-5.3 Chat

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-10

Метрика	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02 Бесплатно доступно	GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03

Метрика	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02 Бесплатно доступно	GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03
Оценка	8.2	7.6
Ранг	#14	#46
Надежность	6.7	10.0
Стабильность	9.6	8.7
Тестов верно
Доля успешных попыток	77.2%	70.2%
Нестабильные тесты	1	3
Всего запусков	57	57
Стоимость за результат	0.158	2.895
Общая стоимость	$0.023	$0.348
???? ?????	$0.130 / 1M	$1.750 / 1M
???? ??????	$0.380 / 1M	$14.000 / 1M
Выходные токены	14,426	21,353
Токены рассуждений	37,964	0
Время ответа (среднее)	28.72s	5.80s
Время ответа (макс.)	90.14s	18.33s
Время ответа (суммарно)	488.27s	110.27s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	962	2,046
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	3,167	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	4.7	1.6	66.7%	1		70.97s	3,166	5,449
GPT-5.3 Chat	10.0	10.0	100.0%	0		9.32s	1,436	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	1,822	2,951
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	942	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	4,349	8,985
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	8,264	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	105	888
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	319	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	533	2,035
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.29s	1,455	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	9.9	10.0	100.0%	0		27.63s	1,797	5,596
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		90.14s	1,692	10,014
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	569	0

Быстрое сравнение

Сменить пару сравнения

GPT-5.3 ChatnonevsGLM 5.1medium DeepSeek V4 FlashhighvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium Gemini 3.1 Flash LitelowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsStep 3.5 Flashmedium GPT-5.3 ChatnonevsGLM 5V Turbomedium Kimi K2.6mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.6 Flashmedium Gemma 4 26B A4BmediumБесплатно доступноvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2-Promedium Claude Opus 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone