Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs DeepSeek: DeepSeek V4 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-24

Метрика Claude Opus 4.6 Claude Opus 4.6 medium Релиз: 2026-02-05 DeepSeek V4 Flash DeepSeek V4 Flash high Релиз: 2026-04-24
Оценка 7.6 7.8
Ранг #43 #35
Стабильность 9.1 7.8
Тестов верно
Доля успешных попыток 70.4% 79.6%
Нестабильные тесты 2 5
Всего запусков 54 52
Стоимость за результат 12.047 0.189
Общая стоимость $1.446 $0.021
???? ????? $5.000 / 1M $0.140 / 1M
???? ?????? $25.000 / 1M $0.280 / 1M
Выходные токены 29,829 1,757
Токены рассуждений 18,938 55,907
Время ответа (среднее) 21.08s 47.47s
Время ответа (макс.) 83.40s 255.28s
Время ответа (суммарно) 231.84s 854.45s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.6 6.4 5.8 66.7% 2 7.45s 986 1,071
DeepSeek V4 Flash 8.3 10.0 75.0% 0 28.51s 140 7,770
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 23.11s 3,486 1,504
DeepSeek V4 Flash 10.0 10.0 100.0% 0 62.48s 369 9,361
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 8,178 5,194
DeepSeek V4 Flash 10.0 10.0 100.0% 0 76.57s 465 7,347
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 7.37s 691 757
DeepSeek V4 Flash 10.0 10.0 100.0% 0 28.03s 201 1,179
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.6 3.0 10.0 0.0% 0 83.40s 14,642 8,687
DeepSeek V4 Flash 4.1 4.4 44.5% 2 112.69s 19 24,857
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 5.04s 188 292
DeepSeek V4 Flash 6.1 3.1 66.7% 1 25.15s 79 632
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 266 467
DeepSeek V4 Flash 10.0 10.0 100.0% 0 15.36s 63 1,622
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.6 7.7 10.0 66.7% 0 4.60s 531 637
DeepSeek V4 Flash 6.4 4.5 77.8% 2 25.53s 193 2,597
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 861 329
DeepSeek V4 Flash 10.0 10.0 100.0% 0 74.73s 228 542

Быстрое сравнение

Сменить пару сравнения