AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Qwen: Qwen3.6 Plus

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-29

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Qwen3.6 Plus Qwen3.6 Plus medium Релиз: 2026-04-20

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Qwen3.6 Plus Qwen3.6 Plus medium Релиз: 2026-04-20
Оценка	7.3	7.8
Ранг	#65	#38
Надежность	10.0	10.0
Стабильность	9.2	9.2
Тестов верно
Доля успешных попыток	65.0%	68.3%
Нестабильные тесты	2	2
Всего запусков	60	60
Стоимость за результат	4.324	0.630
Общая стоимость	$0.519	$0.082
Цена входа	$5.000 / 1M	$0.325 / 1M
Цена выхода	$25.000 / 1M	$1.950 / 1M
Выходные токены	8,098	1,833
Токены рассуждений	0	124,782
Время ответа (среднее)	3.51s	26.81s
Время ответа (макс.)	17.73s	201.68s
Время ответа (суммарно)	70.19s	509.43s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		9.90s	207	7,557

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
Qwen3.6 Plus	4.1	6.7	16.7%	1		201.68s	38	33,395

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		34.95s	452	13,073

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		14.95s	270	10,706

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
Qwen3.6 Plus	2.9	7.2	11.1%	1		29.59s	56	33,464

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
Qwen3.6 Plus	5.1	10.0	0.0%	0		27.05s	111	5,232

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		7.54s	102	5,552

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		6.34s	309	6,712

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		5.87s	267	1,330

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
Qwen3.6 Plus	3.0	10.0	0.0%	0		47.51s	21	7,761

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.8nonevsDeepSeek V3.2medium Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium GPT-5.2 ChatnonevsQwen3.6 Plusmedium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsStep 3.7 Flashlow Gemini 3 Flash PreviewnonevsQwen3.6 Plusmedium Claude Opus 4.8nonevsGPT-5 Minimedium