AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs DeepSeek: DeepSeek V3.2

Сводка

Claude Opus 4.8 лидирует по среднему баллу: 7.3 vs 7.0. DeepSeek V3.2 (medium) имеет более низкую стоимость benchmark: $0.078 vs $1.166. Claude Opus 4.8 быстрее: 4.91s vs 68.62s, с долей успешных попыток 63.6% vs 65.2%.

Рекомендуемая модельDeepSeek V3.2 (medium)Его балл близок к лучшему здесь (7.0 против 7.3), при этом он примерно в 15.1 раза дешевле, чем Claude Opus 4.8.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-17

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	DeepSeek V3.2 DeepSeek V3.2 medium Релиз: 2025-12-01

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	DeepSeek V3.2 DeepSeek V3.2 medium Релиз: 2025-12-01
Оценка	7.3	7.0
Ранг	#63	#73
Надежность	10.0	10.0
Стабильность	9.2	7.4
Тестов верно
Доля успешных попыток	63.6%	65.2%
Нестабильные тесты	2	7
Всего запусков	66	66
Стоимость за результат	8.969	0.671
Общая стоимость	$1.166	$0.078
Цена входа	$5.000 / 1M	$0.269 / 1M
Цена выхода	$25.000 / 1M	$0.400 / 1M
Общее число входных токенов	149,206	101,047
Выходные токены	16,797	11,834
Токены рассуждений	0	117,014
Время ответа (среднее)	4.91s	68.62s
Время ответа (макс.)	35.03s	376.10s
Время ответа (суммарно)	108.03s	1509.53s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#63 Claude Opus 4.8

none

Стоимость: $0.053
Время: 22.0s
Токены: 2,253 tok

#73 DeepSeek V3.2

medium

Стоимость: $0.001
Время: 53.6s
Токены: 1,932 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
DeepSeek V3.2	8.2	7.9	83.3%	1		24.23s	448	3,247	6,953

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
DeepSeek V3.2	6.0	7.2	55.6%	1		248.68s	5,717	649	52,014

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.8	10.0	100.0%	0		26.38s	111,760	11,949	0
DeepSeek V3.2	7.3	5.8	83.3%	1		79.92s	76,997	5,219	24,229

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	7,388	207	7,693

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
DeepSeek V3.2	2.9	4.4	22.2%	2		24.27s	472	21	6,838

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
DeepSeek V3.2	3.4	2.5	33.3%	1		58.29s	314	49	2,189

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	627	1,397	2,845

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
DeepSeek V3.2	7.0	7.2	55.6%	1		37.69s	594	518	6,375

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	8,307	507	859

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
DeepSeek V3.2	3.0	10.0	0.0%	0		83.99s	183	20	7,019

Быстрое сравнение

Сменить пару сравнения