AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.7 Max

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-04

Метрика	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05	Qwen3.7 Max Qwen3.7 Max medium Релиз: 2026-05-22

Метрика	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05	Qwen3.7 Max Qwen3.7 Max medium Релиз: 2026-05-22
Оценка	8.0	9.1
Ранг	#21	#5
Надежность	10.0	10.0
Стабильность	8.6	9.6
Тестов верно
Доля успешных попыток	76.2%	88.9%
Нестабильные тесты	4	1
Всего запусков	63	63
Стоимость за результат	8.640	5.517
Общая стоимость	$1.210	$0.523
Цена входа	$2.500 / 1M	$1.250 / 1M
Цена выхода	$15.000 / 1M	$3.750 / 1M
Общее число входных токенов	34,108	42,360
Выходные токены	2,242	2,129
Токены рассуждений	72,707	122,959
Время ответа (среднее)	22.35s	16.02s
Время ответа (макс.)	100.41s	59.98s
Время ответа (суммарно)	469.29s	336.51s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511
Qwen3.7 Max	10.0	10.0	100.0%	0		6.36s	672	222	8,742

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	8.8	7.8	88.9%	1		44.36s	7,305	433	24,216
Qwen3.7 Max	10.0	10.0	100.0%	0		35.31s	7,893	423	34,808

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		20.57s	11,019	301	3,543
Qwen3.7 Max	10.0	10.0	100.0%	0		19.60s	14,934	366	8,405

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804
Qwen3.7 Max	10.0	10.0	100.0%	0		8.80s	7,782	270	6,254

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748
Qwen3.7 Max	5.9	7.2	55.6%	1		24.94s	771	61	31,793

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321
Qwen3.7 Max	10.0	10.0	100.0%	0		11.70s	516	135	4,457

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897
Qwen3.7 Max	10.0	10.0	100.0%	0		7.46s	699	102	5,452

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815
Qwen3.7 Max	10.0	10.0	100.0%	0		8.84s	696	259	8,908

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031
Qwen3.7 Max	10.0	10.0	100.0%	0		6.63s	8,193	267	1,220

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821
Qwen3.7 Max	3.0	10.0	0.0%	0		33.37s	204	24	12,920

Быстрое сравнение

Сменить пару сравнения

GPT-5.5lowvsQwen3.7 Maxmedium Gemini 3.5 FlashnonevsGPT-5.4medium DeepSeek V4 FlashhighvsGPT-5.4medium Gemini 3.5 FlashlowvsQwen3.7 Maxmedium Gemini 3.5 FlashminimalvsGPT-5.4medium GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3.5 FlashhighvsQwen3.7 Maxmedium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewlowvsQwen3.7 Maxmedium GPT-5.4mediumvsStep 3.7 Flashlow