AI BENCHY Compare

Google: Gemma 4 31B vs OpenAI: GPT-5.3-Codex

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-10

Метрика	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02 Бесплатно доступно	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05

Метрика	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02 Бесплатно доступно	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05
Оценка	8.2	8.2
Ранг	#14	#13
Надежность	6.7	10.0
Стабильность	9.6	8.3
Тестов верно
Доля успешных попыток	77.2%	80.7%
Нестабильные тесты	1	4
Всего запусков	57	57
Стоимость за результат	0.158	4.594
Общая стоимость	$0.023	$0.598
???? ?????	$0.130 / 1M	$1.750 / 1M
???? ??????	$0.380 / 1M	$14.000 / 1M
Выходные токены	14,426	2,309
Токены рассуждений	37,964	36,880
Время ответа (среднее)	28.72s	15.33s
Время ответа (макс.)	90.14s	100.93s
Время ответа (суммарно)	488.27s	291.34s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	962	2,046
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	240	1,722

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	4.7	1.6	66.7%	1		70.97s	3,166	5,449
GPT-5.3-Codex	10.0	10.0	100.0%	0		8.95s	491	1,530

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	1,822	2,951
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	234	728

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	4,349	8,985
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	64	25,308

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	105	888
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	187	331

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	533	2,035
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	9.9	10.0	100.0%	0		27.63s	1,797	5,596
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.12s	352	1,644

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		90.14s	1,692	10,014
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	30	1,701

Быстрое сравнение

Сменить пару сравнения

Gemini 3 Flash PreviewnonevsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Gemma 4 31BmediumБесплатно доступноvsGPT-5.2 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemma 4 31BmediumБесплатно доступноvsGPT-5.5low Gemini 3.1 Flash LitelowvsGPT-5.3-Codexmedium Gemma 4 31BmediumБесплатно доступноvsGPT-5.3 Chatnone DeepSeek V4 FlashhighvsGemma 4 31BmediumБесплатно доступно DeepSeek V4 FlashhighvsGPT-5.3-Codexmedium Gemma 4 31BmediumБесплатно доступноvsQwen3.6 Max Previewnone Gemma 4 31BmediumБесплатно доступноvsRing 2.6 1tnoneБесплатно доступно