AI BENCHY Compare

OpenAI: GPT-5.3-Codex vs HY3 Preview

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-23

Метрика	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05	HY3 Preview HY3 Preview high Релиз: 2026-04-22 Бесплатно доступно

Метрика	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05	HY3 Preview HY3 Preview high Релиз: 2026-04-22 Бесплатно доступно
Оценка	8.6	8.5
Ранг	#7	#9
Стабильность	8.7	8.8
Тестов верно
Доля успешных попыток	83.3%	81.5%
Нестабильные тесты	3	3
Всего запусков	54	50
Стоимость за результат	4.405	0.000
Общая стоимость	$0.573	$0.000
???? ?????	$1.750 / 1M	$0.000 / 1M
???? ??????	$14.000 / 1M	$0.000 / 1M
Выходные токены	2,279	238,920
Токены рассуждений	35,179	0
Время ответа (среднее)	15.38s	55.19s
Время ответа (макс.)	100.93s	149.94s
Время ответа (суммарно)	276.91s	938.23s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	240	1,722
HY3 Preview	10.0	10.0	100.0%	0		32.69s	26,550	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3-Codex	10.0	10.0	100.0%	0		8.95s	491	1,530
HY3 Preview	10.0	10.0	100.0%	0		99.76s	38,167	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731
HY3 Preview	10.0	10.0	100.0%	0		113.09s	31,319	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	234	728
HY3 Preview	6.5	10.0	50.0%	0		12.11s	4,323	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	64	25,308
HY3 Preview	5.3	7.2	44.4%	1		109.04s	87,559	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	187	331
HY3 Preview	10.0	10.0	100.0%	0		24.31s	5,490	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693
HY3 Preview	8.5	6.8	83.3%	1		34.02s	13,331	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.12s	352	1,644
HY3 Preview	9.0	7.9	88.9%	1		28.07s	21,811	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492
HY3 Preview	10.0	10.0	100.0%	0		78.83s	10,370	0

Быстрое сравнение

Сменить пару сравнения

Qwen3.5 Plus 2026-02-15mediumvsHY3 PreviewhighБесплатно доступно Qwen3.6 Plus PreviewmediumБесплатно доступноvsHY3 PreviewhighБесплатно доступно Qwen3.5-27BmediumvsHY3 PreviewhighБесплатно доступно Gemini 3 PRO PreviewmediumvsHY3 PreviewhighБесплатно доступно Seed-2.0-LitemediumvsHY3 PreviewhighБесплатно доступно HY3 PreviewhighБесплатно доступноvsGLM 5medium Gemma 4 31BmediumБесплатно доступноvsHY3 PreviewhighБесплатно доступно Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 2.5 FlashmediumvsHY3 PreviewhighБесплатно доступно GPT-5.4mediumvsHY3 PreviewhighБесплатно доступно Gemini 3.1 Flash Lite PreviewmediumvsHY3 PreviewhighБесплатно доступно Gemini 3 Flash PreviewlowvsHY3 PreviewhighБесплатно доступно