Сравниваемые модели

Бенчмарк-сравнение GPT-5.2 Chat vs GPT-5.3 Chat vs Gemini 3.1 Flash Lite Preview (low)GPT-5.2 Chat лидирует по Оценка со значением 8.0. GPT-5.2 Chat лидирует по Надежность со значением 10.0. У GPT-5.3 Chat самый низкий Общая стоимость: $0.571. GPT-5.3 Chat самый быстрый: 6.88s.

Рекомендуемая модельGPT-5.2 ChatЗдесь у него лучший балл (8.0), и он отвечает примерно в 1.5 раза быстрее, чем другие модели в этом сравнении.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-21

Метрика	GPT-5.2 Chat GPT-5.2 Chat none Релиз: 2025-12-11	GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Релиз: 2026-03-03

Метрика	GPT-5.2 Chat GPT-5.2 Chat none Релиз: 2025-12-11	GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low Релиз: 2026-03-03
Оценка	8.0	7.5	6.5
Ранг	#34	#58	#110
Надежность	10.0	10.0	10.0
Стабильность	8.6	8.2	10.0
Тестов верно
Доля успешных попыток	74.2%	68.2%	59.1%
Нестабильные тесты	4	5	0
Всего запусков	66	66	66
Стоимость за результат	4.308	4.387	4.969
Общая стоимость	$0.604	$0.571	$0.646
Цена входа	$1.750 / 1M	$1.750 / 1M	$0.250 / 1M
Цена выхода	$14.000 / 1M	$14.000 / 1M	$1.500 / 1M
Общее число входных токенов	101,248	78,990	110,185
Выходные токены	30,424	30,854	14,717
Токены рассуждений	0	0	397,483
Время ответа (среднее)	7.65s	6.88s	16.70s
Время ответа (макс.)	38.52s	18.33s	309.35s
Время ответа (суммарно)	168.39s	151.31s	367.47s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#34 GPT-5.2 Chat

none

Стоимость: $0.010
Время: 15.3s
Токены: 797 tok

#58 GPT-5.3 Chat

none

Стоимость: $0.008
Время: 8.1s
Токены: 634 tok

#110 Gemini 3.1 Flash Lite Preview

low

Стоимость: $0.002
Время: 3.7s
Токены: 1,203 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2 Chat	8.7	7.9	91.7%	1	3.40s	606	1,807	0
GPT-5.3 Chat	6.7	8.1	58.3%	1	3.86s	606	3,167	0
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0	2.12s	506	462	1,638

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2 Chat	8.8	7.8	88.9%	1	9.82s	7,305	6,731	0
GPT-5.3 Chat	5.6	4.7	55.6%	2	10.52s	7,302	6,632	0
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0	1.39s	8,138	660	1,060

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2 Chat	7.3	5.8	83.3%	1	13.91s	78,055	7,923	0
GPT-5.3 Chat	10.0	10.0	100.0%	0	15.07s	55,800	6,851	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0	160.63s	85,851	12,656	389,079

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2 Chat	10.0	10.0	100.0%	3.05s	7,140	980	0
GPT-5.3 Chat	10.0	10.0	100.0%	2.21s	7,140	942	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	3.00s	7,455	291	696

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2 Chat	5.3	10.0	33.3%	0	17.78s	723	7,810	0
GPT-5.3 Chat	3.5	4.4	33.3%	2	13.01s	723	8,264	0
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0	2.36s	641	18	1,212

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2 Chat	4.4	3.0	33.3%	1	3.20s	477	335	0
GPT-5.3 Chat	4.6	10.0	0.0%	0	1.99s	477	319	0
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0	1.54s	490	69	384

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2 Chat	9.8	10.0	100.0%	5.51s	660	1,441	0
GPT-5.3 Chat	9.8	10.0	100.0%	3.51s	660	1,491	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	1.49s	621	72	753

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2 Chat	7.7	10.0	66.7%	4.10s	642	1,603	0
GPT-5.3 Chat	10.0	10.0	100.0%	2.99s	642	1,758	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	1.69s	566	243	1,248

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2 Chat	10.0	10.0	100.0%	4.68s	5,445	555	0
GPT-5.3 Chat	10.0	10.0	100.0%	8.36s	5,445	861	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	9.54s	5,757	237	993

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2 Chat	3.0	10.0	0.0%	6.89s	195	1,239	0
GPT-5.3 Chat	3.0	10.0	0.0%	4.38s	195	569	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	1.35s	160	9	420

Быстрое сравнение

Сменить пару сравнения

GPT-5.2 ChatnonevsStep 3.7 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-27Bnone GPT-5.2 ChatnonevsInklinghigh Gemini 3.1 Flash Lite PreviewlowvsLaguna XS 2.1mediumБесплатно доступно Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5medium Gemini 3.5 Flash-LitehighvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsGLM 5.2high Kimi K2.7 CodemediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5 Plus 2026-02-15medium Muse Spark 1.1highvsGPT-5.2 Chatnone Nemotron 3 UltramediumБесплатно доступноvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 27Bmedium