AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.7 Max

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05	Qwen3.7 Max Qwen3.7 Max none Релиз: 2026-05-22

Метрика	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05	Qwen3.7 Max Qwen3.7 Max none Релиз: 2026-05-22
Оценка	7.9	7.9
Ранг	#28	#27
Надежность	10.0	10.0
Стабильность	8.5	10.0
Тестов верно
Доля успешных попыток	75.0%	70.0%
Нестабильные тесты	4	0
Всего запусков	60	60
Стоимость за результат	8.767	0.719
Общая стоимость	$1.140	$0.101
???? ?????	$2.500 / 1M	$2.500 / 1M
???? ??????	$15.000 / 1M	$7.500 / 1M
Выходные токены	2,222	1,988
Токены рассуждений	68,503	0
Время ответа (среднее)	22.31s	1.30s
Время ответа (макс.)	100.41s	3.92s
Время ответа (суммарно)	446.15s	25.95s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	8.3	10.0	75.0%	0		4.11s	240	1,511
Qwen3.7 Max	6.5	10.0	50.0%	0		1.08s	242	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	8.2	6.7	83.3%	1		54.98s	412	19,995
Qwen3.7 Max	6.8	10.0	50.0%	0		1.39s	576	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
Qwen3.7 Max	3.0	10.0	0.0%	0		2.17s	171	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804
Qwen3.7 Max	10.0	10.0	100.0%	0		1.35s	243	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748
Qwen3.7 Max	7.7	10.0	66.7%	0		975ms	15	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321
Qwen3.7 Max	10.0	10.0	100.0%	0		1.04s	120	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
Qwen3.7 Max	10.0	10.0	100.0%	0		943ms	72	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832
Qwen3.7 Max	10.0	10.0	100.0%	0		1.13s	314	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
Qwen3.7 Max	10.0	10.0	100.0%	0		3.92s	222	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	3.0	10.0	0.0%	0		13.95s	30	1,821
Qwen3.7 Max	3.0	10.0	0.0%	0		856ms	13	0

Быстрое сравнение

Сменить пару сравнения

Qwen3.7 MaxnonevsGLM 5 Turbomedium Gemini 3.5 FlashminimalvsQwen3.7 Maxnone Gemini 3.5 FlashminimalvsGPT-5.4medium Qwen3.7 MaxnonevsMiMo-V2.5medium Gemma 4 31BmediumБесплатно доступноvsQwen3.7 Maxnone Qwen3.7 MaxnonevsGrok 4.3medium Seed-2.0-LitemediumvsQwen3.7 Maxnone Gemini 3.1 Flash Lite PreviewmediumvsQwen3.7 Maxnone Gemini 3.1 Flash LitemediumvsQwen3.7 Maxnone Gemini 2.5 FlashmediumvsQwen3.7 Maxnone Qwen3.7 MaxnonevsMiMo-V2.5-Promedium Gemini 3 PRO PreviewmediumvsQwen3.7 Maxnone