AI BENCHY Compare

OpenAI: GPT-5.2 vs OpenAI: GPT-5.3 Chat

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-04

Метрика	GPT-5.2 GPT-5.2 medium Релиз: 2025-12-11	GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03

Метрика	GPT-5.2 GPT-5.2 medium Релиз: 2025-12-11	GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03
Оценка	7.3	7.6
Ранг	#37	#33
Стабильность	8.0	8.6
Тестов верно
Доля успешных попыток	70.6%	66.7%
Нестабильные тесты	4	3
Всего запусков	51	51
Стоимость за результат	3.131	3.177
Общая стоимость	$0.314	$0.318
???? ?????	$1.750 / 1M	$1.750 / 1M
???? ??????	$14.000 / 1M	$14.000 / 1M
Выходные токены	2,238	19,348
Токены рассуждений	16,811	0
Время ответа (среднее)	13.93s	5.68s
Время ответа (макс.)	77.80s	18.33s
Время ответа (суммарно)	139.29s	96.58s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	3,167	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	942	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	8,264	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	319	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614
GPT-5.3 Chat	8.3	10.0	50.0%	0		3.29s	1,455	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.2	7.7	7.3	77.8%	1		5.47s	609	938
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0

Быстрое сравнение

Сменить пару сравнения

Claude Sonnet 4.6nonevsGPT-5.2medium GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Claude Opus 4.6mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5V Turbomedium Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-35B-A3Bmedium GPT-5.3 ChatnonevsStep 3.5 FlashmediumБесплатно доступно GPT-5.3 ChatnonevsGrok 4.20 Betamedium GPT-5.3 ChatnonevsMiMo-V2-Omnimedium Kimi K2.5mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2-Promedium