AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-122B-A10B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-16

Метрика	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Релиз: 2026-02-24

Метрика	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Релиз: 2026-02-24
Оценка	8.2	8.1
Ранг	#16	#19
Стабильность	8.7	8.6
Тестов верно
Доля успешных попыток	79.6%	79.6%
Нестабильные тесты	3	3
Всего запусков	54	54
Стоимость за результат	6.399	4.060
Общая стоимость	$0.832	$0.528
???? ?????	$2.500 / 1M	$0.260 / 1M
???? ??????	$15.000 / 1M	$2.080 / 1M
Выходные токены	2,169	17,635
Токены рассуждений	48,732	162,668
Время ответа (среднее)	18.63s	31.38s
Время ответа (макс.)	100.41s	119.29s
Время ответа (суммарно)	335.26s	564.84s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	8.3	10.0	75.0%	0		4.11s	240	1,511
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	269	16,835

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		13.03s	389	2,045
Qwen3.5-122B-A10B	4.7	1.6	66.7%	1		70.98s	322	10,694

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	483	11,337

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		5.32s	234	804
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	270	16,558

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	5.3	7.2	44.4%	1		74.27s	61	34,748
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	15,537	64,889

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	4.7	3.1	33.3%	1		4.92s	145	321
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	66	7,592

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	77	7,372

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	8.2	7.2	88.9%	1		9.13s	442	3,832
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.18s	289	26,165

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	322	1,226

Быстрое сравнение

Сменить пару сравнения

Gemini 3 Flash PreviewnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium GPT-5.3 ChatnonevsQwen3.5-122B-A10Bmedium Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 3 Flash PreviewlowvsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6nonevsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6nonevsGPT-5.4medium