AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Qwen: Qwen3.6 Plus

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-29

Метрика	Claude Opus 4.7 Claude Opus 4.7 none Релиз: 2026-04-16	Qwen3.6 Plus Qwen3.6 Plus medium Релиз: 2026-04-20

Метрика	Claude Opus 4.7 Claude Opus 4.7 none Релиз: 2026-04-16	Qwen3.6 Plus Qwen3.6 Plus medium Релиз: 2026-04-20
Оценка	9.2	8.1
Ранг	#4	#26
Надежность	Н/Д	Н/Д
Стабильность	10.0	9.5
Тестов верно
Доля успешных попыток	88.9%	74.1%
Нестабильные тесты	0	1
Всего запусков	54	54
Стоимость за результат	3.155	0.000
Общая стоимость	$0.505	$0.000
???? ?????	$5.000 / 1M	$0.325 / 1M
???? ??????	$25.000 / 1M	$1.950 / 1M
Выходные токены	6,326	1,763
Токены рассуждений	0	83,782
Время ответа (среднее)	3.13s	15.27s
Время ответа (макс.)	18.27s	43.55s
Время ответа (суммарно)	56.33s	259.55s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	522	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		9.90s	207	7,557

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.84s	494	0
Qwen3.6 Plus	3.0	10.0	0.0%	0		0ms	0	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	3,504	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		34.95s	452	13,073

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	324	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		14.95s	270	10,706

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	78	0
Qwen3.6 Plus	2.9	7.2	11.1%	1		29.59s	56	33,464

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	257	0
Qwen3.6 Plus	5.1	10.0	0.0%	0		27.05s	111	5,232

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	114	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		7.54s	102	5,552

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.58s	661	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		6.11s	298	6,868

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	372	0
Qwen3.6 Plus	10.0	10.0	100.0%	0		5.87s	267	1,330

Быстрое сравнение

Сменить пару сравнения

Qwen3.6 PlusmediumvsHY3 PreviewlowБесплатно доступно Gemini 3 Flash PreviewnonevsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plusmedium Claude Opus 4.7nonevsGPT-5.5low Claude Opus 4.7nonevsGPT-5.5medium GPT-5.2 ChatnonevsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 Plusmedium DeepSeek V4 FlashhighvsQwen3.6 Plusmedium Qwen3.6 PlusmediumvsHY3 PreviewhighБесплатно доступно Claude Opus 4.7nonevsGemini 3 Flash Previewlow Claude Opus 4.7nonevsQwen3.6 Max Previewmedium Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium