Google: Gemini 3.1 Pro Preview vs OpenAI: GPT-5.3-Codex

Gemini 3.1 Pro Preview (medium) лидирует по среднему баллу: 9.2 vs 8.9. GPT-5.3-Codex (medium) имеет более низкую стоимость benchmark: $0.920 vs $1.361. GPT-5.3-Codex (medium) быстрее: 16.96s vs 21.47s, с долей успешных попыток 90.9% vs 83.3%.

Рекомендуемая модельGPT-5.3-Codex (medium)Он дает лучший общий компромисс: конкурентный балл (8.9), ниже стоимость, чем у Gemini 3.1 Pro Preview (medium), и сбалансированное время ответа.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-25

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05

Метрика	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05
Оценка	9.2	8.9
Ранг	#10	#18
Надежность	10.0	10.0
Стабильность	10.0	8.6
Тестов верно
Доля успешных попыток	90.9%	83.3%
Нестабильные тесты	0	4
Всего запусков	66	66
Стоимость за результат	6.801	5.748
Общая стоимость	$1.361	$0.920
Цена входа	$2.000 / 1M	$1.750 / 1M
Цена выхода	$12.000 / 1M	$14.000 / 1M
Общее число входных токенов	92,287	81,268
Выходные токены	5,232	6,251
Токены рассуждений	92,726	49,274
Время ответа (среднее)	21.47s	16.96s
Время ответа (макс.)	88.68s	100.93s
Время ответа (суммарно)	322.08s	373.19s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#10 Gemini 3.1 Pro Preview

medium

Стоимость: $0.115
Время: 87.2s
Токены: 9,629 tok

#18 GPT-5.3-Codex

medium

Стоимость: $0.049
Время: 54.9s
Токены: 3,580 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	498	112	3,218
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0		40.17s	8,124	435	41,247
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.50s	7,302	535	10,890

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	9.8	10.0	100.0%	0		40.39s	67,910	3,687	23,111
GPT-5.3-Codex	10.0	10.0	100.0%	0		26.04s	57,988	4,258	5,816

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	7,265	279	3,904
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	635	18	12,424
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	490	108	1,179
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	621	72	2,236
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.90s	570	235	3,128
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	6,018	274	982
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.27s	156	12	1,297
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701

Быстрое сравнение

Сменить пару сравнения

GPT-5.3-CodexmediumvsGrok 4.5high Claude Opus 5highvsGemini 3.1 Pro Previewmedium Gemini 3.5 FlashlowvsGPT-5.3-Codexmedium Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.6 Solhigh Gemini 3.1 Pro PreviewmediumvsGPT-5.6 Sollow Claude Opus 5highvsGPT-5.3-Codexmedium Gemini 3.1 Pro PreviewmediumvsGrok 4.5high Claude Opus 5lowvsGPT-5.3-Codexmedium Gemini 3.6 FlashlowvsGPT-5.3-Codexmedium GPT-5.3-CodexmediumvsGrok 4.5low Gemini 3.5 FlashhighvsGPT-5.3-Codexmedium