AI BENCHY Compare

OpenAI: GPT-5.2 vs Qwen: Qwen3.5-Flash

Сводка

Сравнение benchmark GPT-5.2 vs Qwen3.5-Flash: GPT-5.2 лидирует по среднему баллу: 8.4 vs 6.8. Qwen3.5-Flash имеет более низкую стоимость benchmark: $0.080 vs $0.548. GPT-5.2 быстрее: 16.88s vs 63.29s, с долей успешных попыток 71.4% vs 71.4%.

Рекомендуемая модель: GPT-5.2 - Здесь у него лучший балл (8.4), и он отвечает примерно в 3.7 раза быстрее, чем Qwen3.5-Flash.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-18

Метрика	GPT-5.2 GPT-5.2 medium Релиз: 2025-12-11	Qwen3.5-Flash Qwen3.5-Flash medium Релиз: 2026-02-24

Метрика	GPT-5.2 GPT-5.2 medium Релиз: 2025-12-11	Qwen3.5-Flash Qwen3.5-Flash medium Релиз: 2026-02-24
Оценка	8.4	6.8
Ранг	#22	#70
Надежность	10.0	10.0
Стабильность	8.4	8.1
Тестов верно
Доля успешных попыток	71.4%	71.4%
Нестабильные тесты	4	5
Всего запусков	63	63
Стоимость за результат	4.209	0.871
Общая стоимость	$0.548	$0.080
Цена входа	$1.750 / 1M	$0.065 / 1M
Цена выхода	$14.000 / 1M	$0.260 / 1M
Общее число входных токенов	33,967	38,926
Выходные токены	2,901	2,088
Токены рассуждений	31,932	294,598
Время ответа (среднее)	16.88s	63.29s
Время ответа (макс.)	77.80s	234.29s
Время ответа (суммарно)	236.34s	1265.85s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#22 GPT-5.2

medium

Стоимость: $0.047
Время: 49.2s
Токены: 3,396 tok

#70 Qwen3.5-Flash

medium

Стоимость: $0.002
Время: 25.8s
Токены: 4,294 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2	6.5	8.0	58.3%	1		7.81s	606	567	2,002
Qwen3.5-Flash	10.0	10.0	100.0%	0		59.11s	672	383	32,992

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2	10.0	10.0	100.0%	0		22.73s	7,302	511	11,912
Qwen3.5-Flash	3.7	7.2	22.2%	1		58.87s	6,685	302	90,081

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2	10.0	10.0	100.0%	0		14.06s	11,019	291	1,757
Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	14,934	483	8,270

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2	10.0	10.0	100.0%	0		3.15s	7,140	234	420
Qwen3.5-Flash	7.3	5.9	83.3%	1		56.99s	6,061	235	16,237

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2	5.9	7.2	55.6%	1		77.80s	473	42	10,342
Qwen3.5-Flash	5.3	7.2	44.4%	1		146.50s	581	58	43,615

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2	3.7	9.7	0.0%	0		4.32s	477	162	269
Qwen3.5-Flash	6.1	3.1	66.7%	1		40.05s	516	99	38,486

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2	9.9	10.0	100.0%	0		3.12s	660	94	614
Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	699	98	14,139

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2	7.5	7.3	77.8%	1		5.80s	642	735	924
Qwen3.5-Flash	8.2	7.2	88.9%	1		27.61s	381	89	12,457

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2	4.7	1.6	66.7%	1		10.30s	5,453	239	469
Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	8,193	309	1,284

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.2	3.0	10.0	0.0%	0		28.18s	195	26	3,223
Qwen3.5-Flash	3.0	10.0	0.0%	0		48.98s	204	32	37,037

Быстрое сравнение

Сменить пару сравнения