AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Qwen: Qwen3.5-Flash

Сводка

Сравнение benchmark Claude Opus 4.8 vs Qwen3.5-Flash (medium): Claude Opus 4.8 лидирует по среднему баллу: 7.2 vs 6.8. Qwen3.5-Flash (medium) имеет более низкую стоимость benchmark: $0.080 vs $0.539. Claude Opus 4.8 быстрее: 3.48s vs 63.29s, с долей успешных попыток 61.9% vs 71.4%.

Рекомендуемая модель: Claude Opus 4.8 - Здесь у него лучший балл (7.2), и он отвечает примерно в 18.2 раза быстрее, чем Qwen3.5-Flash (medium).

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-10

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Qwen3.5-Flash Qwen3.5-Flash medium Релиз: 2026-02-24

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Qwen3.5-Flash Qwen3.5-Flash medium Релиз: 2026-02-24
Оценка	7.2	6.8
Ранг	#70	#84
Надежность	10.0	10.0
Стабильность	9.2	8.1
Тестов верно
Доля успешных попыток	61.9%	71.4%
Нестабильные тесты	2	5
Всего запусков	63	63
Стоимость за результат	4.485	0.871
Общая стоимость	$0.539	$0.080
Цена входа	$5.000 / 1M	$0.065 / 1M
Цена выхода	$25.000 / 1M	$0.260 / 1M
Общее число входных токенов	67,104	38,926
Выходные токены	8,107	2,088
Токены рассуждений	0	294,598
Время ответа (среднее)	3.48s	63.29s
Время ответа (макс.)	17.73s	234.29s
Время ответа (суммарно)	73.00s	1265.85s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#70 Claude Opus 4.8

none

Стоимость: $0.053
Время: 22.0s
Токены: 2,253 tok

#84 Qwen3.5-Flash

medium

Стоимость: $0.002
Время: 25.8s
Токены: 4,294 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		59.11s	672	383	32,992

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Qwen3.5-Flash	3.7	7.2	22.2%	1		58.87s	6,685	302	90,081

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	14,934	483	8,270

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Qwen3.5-Flash	7.3	5.9	83.3%	1		56.99s	6,061	235	16,237

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Qwen3.5-Flash	5.3	7.2	44.4%	1		146.50s	581	58	43,615

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Qwen3.5-Flash	6.1	3.1	66.7%	1		40.05s	516	99	38,486

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	699	98	14,139

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Qwen3.5-Flash	8.2	7.2	88.9%	1		27.61s	381	89	12,457

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	8,193	309	1,284

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Qwen3.5-Flash	3.0	10.0	0.0%	0		48.98s	204	32	37,037

Быстрое сравнение

Сменить пару сравнения