Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs DeepSeek: DeepSeek V3.2

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-01

Метрика Claude Sonnet 4.6 Claude Sonnet 4.6 none Релиз: 2026-02-17 DeepSeek V3.2 DeepSeek V3.2 medium Релиз: 2025-12-01
Оценка 7.0 6.9
Ранг #78 #81
Надежность 10.0 10.0
Стабильность 9.7 7.9
Тестов верно
Доля успешных попыток 58.3% 63.3%
Нестабильные тесты 1 6
Всего запусков 60 60
Стоимость за результат 2.782 0.335
Общая стоимость $0.306 $0.037
Цена входа $3.000 / 1M $0.252 / 1M
Цена выхода $15.000 / 1M $0.378 / 1M
Выходные токены 9,450 7,177
Токены рассуждений 0 68,297
Время ответа (среднее) 5.27s 53.34s
Время ответа (макс.) 23.84s 189.03s
Время ответа (суммарно) 68.50s 1066.71s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 4.8 10.0 25.0% 0 2.94s 1,214 0
DeepSeek V3.2 8.7 10.0 83.3% 1 24.23s 3,247 6,953
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 6.8 10.0 50.0% 0 6.73s 2,112 0
DeepSeek V3.2 3.9 5.8 33.3% 1 184.97s 640 21,230
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 9.5 10.0 100.0% 0 23.84s 3,766 0
DeepSeek V3.2 10.0 10.0 100.0% 0 93.11s 571 6,296
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 10.0 10.0 100.0% 0 3.43s 252 0
DeepSeek V3.2 10.0 10.0 100.0% 0 36.09s 207 7,693
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 7.7 10.0 66.7% 0 3.54s 413 0
DeepSeek V3.2 2.9 4.4 22.2% 2 24.27s 21 6,838
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 6.1 3.1 66.7% 1 2.56s 192 0
DeepSeek V3.2 3.4 2.5 33.3% 1 58.29s 49 2,189
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 6.5 10.0 50.0% 0 1.96s 90 0
DeepSeek V3.2 10.0 10.0 100.0% 0 35.78s 1,397 2,845
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 7.7 10.0 66.7% 0 2.53s 533 0
DeepSeek V3.2 7.0 7.2 55.6% 1 37.69s 518 6,375
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 10.0 10.0 100.0% 0 4.11s 447 0
DeepSeek V3.2 10.0 10.0 100.0% 0 34.81s 507 859
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Sonnet 4.6 3.0 10.0 0.0% 0 4.67s 431 0
DeepSeek V3.2 3.0 10.0 0.0% 0 83.99s 20 7,019

Быстрое сравнение

Сменить пару сравнения