AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs DeepSeek: DeepSeek V4 Pro

Сводка

Сравнение benchmark Claude Opus 4.8 vs DeepSeek V4 Pro: Claude Opus 4.8 лидирует по среднему баллу: 7.7 vs 7.6. DeepSeek V4 Pro имеет более низкую стоимость benchmark: $0.157 vs $1.270. Claude Opus 4.8 быстрее: 10.83s vs 77.20s, с долей успешных попыток 79.4% vs 66.7%.

Рекомендуемая модель: Claude Opus 4.8 - Здесь у него лучший балл (7.7), и он отвечает примерно в 7.1 раза быстрее, чем DeepSeek V4 Pro.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-30

Метрика	Claude Opus 4.8 Claude Opus 4.8 low Релиз: 2026-05-28	DeepSeek V4 Pro DeepSeek V4 Pro high Релиз: 2026-04-24

Метрика	Claude Opus 4.8 Claude Opus 4.8 low Релиз: 2026-05-28	DeepSeek V4 Pro DeepSeek V4 Pro high Релиз: 2026-04-24
Оценка	7.7	7.6
Ранг	#38	#43
Надежность	10.0	9.3
Стабильность	8.8	7.0
Тестов верно
Доля успешных попыток	79.4%	66.7%
Нестабильные тесты	3	8
Всего запусков	63	63
Стоимость за результат	8.466	1.742
Общая стоимость	$1.270	$0.157
Цена входа	$5.000 / 1M	$0.435 / 1M
Цена выхода	$25.000 / 1M	$0.870 / 1M
Общее число входных токенов	60,946	38,726
Выходные токены	31,771	6,334
Токены рассуждений	6,831	159,151
Время ответа (среднее)	10.83s	77.20s
Время ответа (макс.)	127.97s	416.76s
Время ответа (суммарно)	227.39s	1621.17s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

Стоимость: $0.031
Время: 14.1s
Токены: 1,345 tok

#43 DeepSeek V4 Pro

high

Стоимость: $0.023
Время: 257.6s
Токены: 14,870 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
DeepSeek V4 Pro	5.7	5.9	58.3%	2		25.70s	536	149	3,214

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
DeepSeek V4 Pro	6.1	4.6	66.7%	2		243.00s	5,090	383	84,580

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
DeepSeek V4 Pro	10.0	10.0	100.0%	0		38.17s	14,060	454	5,836

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
DeepSeek V4 Pro	10.0	10.0	100.0%	0		25.03s	7,690	274	2,166

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
DeepSeek V4 Pro	3.6	7.2	22.2%	1		151.46s	569	4,404	50,391

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
DeepSeek V4 Pro	10.0	10.0	100.0%	0		8.83s	471	115	1,013

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
DeepSeek V4 Pro	7.8	6.6	83.3%	1		8.73s	627	66	2,726

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
DeepSeek V4 Pro	6.9	4.9	77.8%	2		56.85s	591	178	2,563

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
DeepSeek V4 Pro	9.8	10.0	100.0%	0		15.92s	8,909	295	701

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
DeepSeek V4 Pro	3.0	10.0	0.0%	0		34.01s	183	16	5,961

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.8lowvsQwen3.5-122B-A10Bmedium DeepSeek V4 ProhighvsMiniMax M3medium DeepSeek V4 ProhighvsGrok Build 0.1medium Claude Opus 4.8lowvsKimi K2.6mediumБесплатно доступно Claude Opus 4.8lowvsGrok 4.3medium Claude Opus 4.8lowvsGemini 3.1 Flash Litemedium Claude Opus 4.8lowvsQwen3.5 Plus 2026-04-20medium Claude Opus 4.8lowvsGemini 3.1 Flash Lite Previewmedium DeepSeek V4 ProhighvsKimi K2.5medium DeepSeek V4 ProhighvsMercury 2medium DeepSeek V4 ProhighvsStep 3.7 Flashlow Claude Opus 4.6mediumvsDeepSeek V4 Prohigh