AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Qwen: Qwen3.5-Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-29

Метрика	Claude Opus 4.6 Claude Opus 4.6 medium Релиз: 2026-02-05	Qwen3.5-Flash Qwen3.5-Flash medium Релиз: 2026-02-24

Метрика	Claude Opus 4.6 Claude Opus 4.6 medium Релиз: 2026-02-05	Qwen3.5-Flash Qwen3.5-Flash medium Релиз: 2026-02-24
Оценка	7.6	7.8
Ранг	#49	#43
Надежность	Н/Д	Н/Д
Стабильность	9.1	7.3
Тестов верно
Доля успешных попыток	70.4%	81.5%
Нестабильные тесты	2	6
Всего запусков	54	54
Стоимость за результат	12.047	0.719
Общая стоимость	$1.446	$0.080
???? ?????	$5.000 / 1M	$0.065 / 1M
???? ??????	$25.000 / 1M	$0.260 / 1M
Выходные токены	29,829	2,073
Токены рассуждений	18,938	191,899
Время ответа (среднее)	21.08s	66.72s
Время ответа (макс.)	83.40s	234.29s
Время ответа (суммарно)	231.84s	1201.03s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
Qwen3.5-Flash	10.0	10.0	100.0%	0		59.11s	383	32,992

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
Qwen3.5-Flash	4.7	1.6	66.7%	1		45.75s	246	12,600

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	483	8,270

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
Qwen3.5-Flash	7.3	5.9	83.3%	1		56.99s	235	16,237

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
Qwen3.5-Flash	5.3	7.2	44.4%	1		146.50s	58	43,615

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Qwen3.5-Flash	6.1	3.1	66.7%	1		40.05s	99	38,486

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	98	14,139

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
Qwen3.5-Flash	6.4	4.4	77.8%	2		56.74s	162	24,276

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	309	1,284

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.6mediumvsGPT-5.3 Chatnone DeepSeek V4 FlashhighvsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium GPT-5.2 ChatnonevsQwen3.5-Flashmedium GPT-5.3 ChatnonevsQwen3.5-Flashmedium Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Qwen3.5-FlashmediumvsHY3 PreviewlowБесплатно доступно