AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs DeepSeek: DeepSeek V3.2

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-16

Метрика	Claude Opus 4.7 Claude Opus 4.7 none Релиз: 2026-04-16	DeepSeek V3.2 DeepSeek V3.2 medium Релиз: 2025-12-01

Метрика	Claude Opus 4.7 Claude Opus 4.7 none Релиз: 2026-04-16	DeepSeek V3.2 DeepSeek V3.2 medium Релиз: 2025-12-01
Оценка	9.2	8.0
Ранг	#4	#27
Стабильность	10.0	8.2
Тестов верно
Доля успешных попыток	88.9%	79.6%
Нестабильные тесты	0	4
Всего запусков	54	54
Стоимость за результат	3.155	0.240
Общая стоимость	$0.505	$0.029
???? ?????	$5.000 / 1M	$0.260 / 1M
???? ??????	$25.000 / 1M	$0.380 / 1M
Выходные токены	6,326	10,620
Токены рассуждений	0	48,511
Время ответа (среднее)	3.13s	46.41s
Время ответа (макс.)	18.27s	180.92s
Время ответа (суммарно)	56.33s	835.33s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	8.3	10.0	75.0%	0		2.12s	522	0
DeepSeek V3.2	8.4	9.9	75.0%	0		30.72s	3,773	7,523

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.84s	494	0
DeepSeek V3.2	4.7	1.6	66.7%	1		180.92s	626	6,792

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	9.5	10.0	100.0%	0		18.27s	3,504	0
DeepSeek V3.2	10.0	10.0	100.0%	0		93.11s	571	6,296

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.15s	324	0
DeepSeek V3.2	10.0	10.0	100.0%	0		36.09s	207	7,693

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	7.7	10.0	66.7%	0		1.19s	78	0
DeepSeek V3.2	5.3	7.2	44.4%	1		39.32s	3,081	7,856

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		3.47s	257	0
DeepSeek V3.2	5.4	2.5	66.7%	1		31.30s	68	2,366

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		1.46s	114	0
DeepSeek V3.2	10.0	10.0	100.0%	0		35.78s	1,397	2,845

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.58s	661	0
DeepSeek V3.2	8.2	7.2	88.9%	1		36.87s	390	6,281

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		4.74s	372	0
DeepSeek V3.2	10.0	10.0	100.0%	0		34.81s	507	859

Быстрое сравнение

Сменить пару сравнения

DeepSeek V3.2mediumvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow DeepSeek V3.2mediumvsGemini 3 Flash Previewnone DeepSeek V3.2mediumvsGPT-5.3 Chatnone Claude Opus 4.7nonevsGemini 3 Flash Previewlow Claude Opus 4.7nonevsGemini 3.1 Pro Previewmedium Claude Sonnet 4.6nonevsDeepSeek V3.2medium Claude Opus 4.7nonevsSeed-2.0-Litemedium Claude Opus 4.7nonevsGPT-5.3-Codexmedium Claude Opus 4.7nonevsQwen3.5 Plus 2026-02-15medium Claude Opus 4.7nonevsQwen3.6 Plus PreviewmediumБесплатно доступно