DeepSeek V4 Flash (high) vs GPT-5.3-Codex (medium)

Рекомендуемая модель GPT-5.3-Codex (medium)

Здесь у него лучший балл (8.9), и он отвечает примерно в 2.9 раза быстрее, чем DeepSeek V4 Flash (high).

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-25

Сводка сравнения

Метрика	DeepSeek V4 Flash DeepSeek V4 Flash high Релиз: 2026-04-24	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05

Метрика	DeepSeek V4 Flash DeepSeek V4 Flash high Релиз: 2026-04-24	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05
Оценка	7.7	8.9
Ранг	#52	#18
Надежность	10.0	10.0
Стабильность	8.2	8.6
Тестов верно
Доля успешных попыток	72.7%	83.3%
Нестабильные тесты	5	4
Всего запусков	66	66
Стоимость за результат	0.402	5.748
Общая стоимость	$0.041	$0.920
Цена входа	$0.094 / 1M	$1.750 / 1M
Цена выхода	$0.188 / 1M	$14.000 / 1M
Общее число входных токенов	108,392	81,268
Выходные токены	14,478	6,251
Токены рассуждений	153,687	49,274
Время ответа (среднее)	49.75s	16.96s
Время ответа (макс.)	218.13s	100.93s
Время ответа (суммарно)	1094.41s	373.19s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

high

medium

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	8.3	10.0	75.0%	0		28.51s	540	140	7,770
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	7.8	10.0	66.7%	0		50.60s	7,279	395	34,862
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.50s	7,302	535	10,890

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	6.4	5.8	66.7%	1		104.10s	82,663	4,633	37,533
GPT-5.3-Codex	10.0	10.0	100.0%	0		26.04s	57,988	4,258	5,816

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	10.0	10.0	100.0%	0		28.03s	7,290	201	1,179
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	4.1	4.4	44.5%	2		100.31s	666	27	59,249
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	6.1	3.1	66.7%	1		25.15s	471	79	632
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	10.0	10.0	100.0%	0		15.36s	627	63	1,622
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	8.2	7.2	88.9%	1		26.11s	594	196	1,767
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	10.0	10.0	100.0%	0		74.73s	8,079	228	542
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
DeepSeek V4 Flash	3.0	10.0	0.0%	0		54.46s	183	8,516	8,531
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701

Сменить пару сравнения