AI BENCHY Compare

Google: Gemini 3.5 Flash vs OpenAI: GPT-5.2 Chat

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-28

Метрика	Gemini 3.5 Flash Gemini 3.5 Flash minimal Релиз: 2026-05-19	GPT-5.2 Chat GPT-5.2 Chat none Релиз: 2025-12-11

Метрика	Gemini 3.5 Flash Gemini 3.5 Flash minimal Релиз: 2026-05-19	GPT-5.2 Chat GPT-5.2 Chat none Релиз: 2025-12-11
Оценка	7.9	7.9
Ранг	#26	#31
Надежность	10.0	10.0
Стабильность	9.6	8.9
Тестов верно
Доля успешных попыток	71.7%	73.3%
Нестабильные тесты	1	3
Всего запусков	60	60
Стоимость за результат	0.734	2.703
Общая стоимость	$0.103	$0.352
Цена входа	$1.500 / 1M	$1.750 / 1M
Цена выхода	$9.000 / 1M	$14.000 / 1M
Выходные токены	5,271	21,144
Токены рассуждений	0	0
Время ответа (среднее)	1.58s	6.82s
Время ответа (макс.)	5.51s	38.52s
Время ответа (суммарно)	31.55s	136.34s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	6.5	10.0	50.0%	0		892ms	405	0
GPT-5.2 Chat	8.7	7.9	91.7%	1		3.40s	1,807	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	7.0	9.8	50.0%	0		3.39s	3,450	0
GPT-5.2 Chat	8.2	6.7	83.3%	1		8.05s	4,131	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	3.0	10.0	0.0%	0		3.56s	404	0
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	1,243	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.66s	279	0
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.05s	980	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		899ms	12	0
GPT-5.2 Chat	5.3	10.0	33.3%	0		17.78s	7,810	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		922ms	117	0
GPT-5.2 Chat	4.4	3.0	33.3%	1		3.20s	335	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	6.4	5.8	66.7%	1		893ms	76	0
GPT-5.2 Chat	9.8	10.0	100.0%	0		5.51s	1,441	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		1.45s	282	0
GPT-5.2 Chat	7.7	10.0	66.7%	0		4.10s	1,603	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.79s	234	0
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	555	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemini 3.5 Flash	3.0	10.0	0.0%	0		1.76s	12	0
GPT-5.2 Chat	3.0	10.0	0.0%	0		6.89s	1,239	0

Быстрое сравнение

Сменить пару сравнения

Gemma 4 26B A4BmediumБесплатно доступноvsGPT-5.2 Chatnone Gemini 3.5 FlashminimalvsQwen3.5-27Bmedium GPT-5.2 ChatnonevsGLM 5 Turbomedium Gemini 3.5 FlashminimalvsQwen3.7 Maxnone Gemini 3.5 FlashminimalvsGPT-5.4medium Gemini 3.5 FlashminimalvsGLM 5 Turbomedium GPT-5.2 ChatnonevsQwen3.5-27Bmedium GPT-5.2 ChatnonevsQwen3.6 35B A3Bmedium GPT-5.2 ChatnonevsGrok 4.3medium GPT-5.2 ChatnonevsQwen3.6 Plusmedium Seed-2.0-LitemediumvsGemini 3.5 Flashminimal Gemma 4 31BmediumБесплатно доступноvsGPT-5.2 Chatnone