AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-27B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-03

Метрика	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05	Qwen3.5-27B Qwen3.5-27B medium Релиз: 2026-02-24

Метрика	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05	Qwen3.5-27B Qwen3.5-27B medium Релиз: 2026-02-24
Оценка	7.9	7.9
Ранг	#27	#24
Надежность	10.0	10.0
Стабильность	8.5	8.9
Тестов верно
Доля успешных попыток	75.0%	73.3%
Нестабильные тесты	4	3
Всего запусков	60	60
Стоимость за результат	8.765	4.532
Общая стоимость	$1.140	$0.488
Цена входа	$2.500 / 1M	$0.195 / 1M
Цена выхода	$15.000 / 1M	$1.560 / 1M
Общее число входных токенов	31,489	39,329
Выходные токены	2,221	2,569
Токены рассуждений	68,486	304,894
Время ответа (среднее)	22.31s	60.09s
Время ответа (макс.)	100.41s	177.36s
Время ответа (суммарно)	446.17s	1201.89s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	672	569	31,505

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	8.2	6.7	83.3%	1		54.98s	4,686	412	19,995
Qwen3.5-27B	7.0	9.8	50.0%	0		123.86s	5,060	416	64,993

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		20.57s	11,019	301	3,543
Qwen3.5-27B	10.0	10.0	100.0%	0		163.96s	14,946	483	9,991

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	7,782	270	16,150

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	553	43	52,368

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	524	70	23,147

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	699	97	11,638

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815
Qwen3.5-27B	8.2	7.7	77.8%	1		59.60s	696	242	70,096

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	8,193	348	1,323

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	204	31	23,683

Быстрое сравнение

Сменить пару сравнения

GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3.5 FlashminimalvsQwen3.5-27Bmedium Gemini 3.5 FlashminimalvsGPT-5.4medium GPT-5.2 ChatnonevsQwen3.5-27Bmedium Gemini 3.5 FlashnonevsQwen3.5-27Bmedium Gemini 3.5 FlashnonevsGPT-5.4medium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3 Flash PreviewnonevsQwen3.5-27Bmedium DeepSeek V4 FlashhighvsGPT-5.4medium DeepSeek V4 FlashhighvsQwen3.5-27Bmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-27Bmedium