AI BENCHY Compare

Google: Gemini 3.5 Flash vs OpenAI: GPT-5.2 Chat

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-01

Метрика	Gemini 3.5 Flash Gemini 3.5 Flash low Релиз: 2026-05-19	GPT-5.2 Chat GPT-5.2 Chat none Релиз: 2025-12-11

Метрика	Gemini 3.5 Flash Gemini 3.5 Flash low Релиз: 2026-05-19	GPT-5.2 Chat GPT-5.2 Chat none Релиз: 2025-12-11
Оценка	9.3	7.9
Ранг	#3	#32
Надежность	10.0	10.0
Стабильность	10.0	8.9
Тестов верно
Доля успешных попыток	90.0%	73.3%
Нестабильные тесты	0	3
Всего запусков	60	60
Стоимость за результат	1.582	2.703
Общая стоимость	$0.285	$0.352
Цена входа	$1.500 / 1M	$1.750 / 1M
Цена выхода	$9.000 / 1M	$14.000 / 1M
Выходные токены	2,027	21,144
Токены рассуждений	23,938	0
Время ответа (среднее)	2.98s	6.82s
Время ответа (макс.)	6.44s	38.52s
Время ответа (суммарно)	59.59s	136.34s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.52s	209	2,536
GPT-5.2 Chat	8.7	7.9	91.7%	1		3.40s	1,807	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	6.8	10.0	50.0%	0		5.54s	452	6,839
GPT-5.2 Chat	8.2	6.7	83.3%	1		8.05s	4,131	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		6.44s	351	3,050
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	1,243	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.81s	279	1,164
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.05s	980	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	7.7	10.0	66.7%	0		3.39s	12	4,538
GPT-5.2 Chat	5.3	10.0	33.3%	0		17.78s	7,810	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.27s	119	916
GPT-5.2 Chat	4.4	3.0	33.3%	1		3.20s	335	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	9.9	10.0	100.0%	0		1.86s	71	1,652
GPT-5.2 Chat	9.8	10.0	100.0%	0		5.51s	1,441	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.35s	288	2,150
GPT-5.2 Chat	7.7	10.0	66.7%	0		4.10s	1,603	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.27s	234	403
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	555	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.88s	12	690
GPT-5.2 Chat	3.0	10.0	0.0%	0		6.89s	1,239	0

Быстрое сравнение

Сменить пару сравнения

Gemma 4 26B A4BmediumБесплатно доступноvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsStep 3.7 Flashmedium GPT-5.2 ChatnonevsGLM 5 Turbomedium GPT-5.2 ChatnonevsQwen3.5-27Bmedium GPT-5.2 ChatnonevsQwen3.6 35B A3Bmedium GPT-5.2 ChatnonevsGrok 4.3medium Gemini 3.5 FlashminimalvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsQwen3.6 Plusmedium Gemma 4 31BmediumБесплатно доступноvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash LitemediumvsGPT-5.2 Chatnone Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone