Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Сравниваемые модели

Сводка

Бенчмарк-сравнение DeepSeek V4 Pro vs DeepSeek V4 Flash vs DeepSeek V3.2 vs Kimi K2.6DeepSeek V4 Flash лидирует по Оценка со значением 8.3. DeepSeek V4 Flash лидирует по Надежность со значением 10.0. У DeepSeek V4 Flash самый низкий Общая стоимость: $0.029. DeepSeek V4 Flash самый быстрый: 45.85s.

Рекомендуемая модель: DeepSeek V4 Flash - Здесь у него лучший балл (8.3), при этом он примерно в 11.8 раза дешевле, чем другие модели в этом сравнении.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-12

Метрика DeepSeek V4 Pro DeepSeek V4 Pro high Релиз: 2026-04-24 DeepSeek V4 Flash DeepSeek V4 Flash high Релиз: 2026-04-24 DeepSeek V3.2 DeepSeek V3.2 medium Релиз: 2025-12-01 Kimi K2.6 Kimi K2.6 medium Релиз: 2026-04-20 Бесплатно доступно
Оценка 6.3 8.3 7.5 7.8
Ранг #90 #26 #50 #38
Надежность 9.0 10.0 10.0 10.0
Стабильность 7.6 8.5 7.6 8.6
Тестов верно
Доля успешных попыток 52.4% 74.6% 65.1% 65.1%
Нестабильные тесты 6 4 6 3
Всего запусков 63 63 63 63
Стоимость за результат 2.869 0.299 0.436 8.358
Общая стоимость $0.079 $0.029 $0.044 $0.889
Цена входа $0.435 / 1M $0.098 / 1M $0.229 / 1M $0.680 / 1M
Цена выхода $0.870 / 1M $0.196 / 1M $0.344 / 1M $3.410 / 1M
Общее число входных токенов 32,240 39,745 38,333 29,450
Выходные токены 12,250 10,310 7,186 102,923
Токены рассуждений 72,257 123,501 99,081 254,094
Время ответа (среднее) 65.21s 45.85s 68.71s 71.67s
Время ответа (макс.) 358.35s 218.13s 376.10s 406.78s
Время ответа (суммарно) 1304.19s 962.79s 1442.81s 1433.36s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#90 DeepSeek V4 Pro

high
Cost
$0.023
Time
257.6s
Tokens
14,870 tok

#26 DeepSeek V4 Flash

high
Cost
$0.003
Time
93.1s
Tokens
7,926 tok

#50 DeepSeek V3.2

medium
Cost
$0.001
Time
53.6s
Tokens
1,932 tok

#38 MoonshotAI: Kimi K2.6

medium
Cost
$0.013
Time
103.4s
Tokens
3,620 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
DeepSeek V4 Pro 6.4 7.9 58.3% 1 16.53s 448 71 3,617
DeepSeek V4 Flash 8.3 10.0 75.0% 0 28.51s 540 140 7,770
DeepSeek V3.2 8.2 7.9 83.3% 1 24.23s 448 3,247 6,953
Kimi K2.6 7.0 8.0 66.7% 1 11.59s 618 7,115 8,934
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
DeepSeek V4 Pro 3.3 6.4 11.1% 1 118.23s 1,966 111 20,940
DeepSeek V4 Flash 7.8 10.0 66.7% 0 50.60s 7,279 395 34,862
DeepSeek V3.2 6.0 7.2 55.6% 1 248.68s 5,717 649 52,014
Kimi K2.6 5.7 8.6 33.3% 0 214.42s 2,925 9,970 77,189
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
DeepSeek V4 Pro 10.0 10.0 100.0% 0 65.02s 14,016 465 5,914
DeepSeek V4 Flash 10.0 10.0 100.0% 0 76.57s 14,016 465 7,347
DeepSeek V3.2 10.0 10.0 100.0% 0 93.11s 14,283 571 6,296
Kimi K2.6 10.0 10.0 100.0% 0 40.96s 11,271 711 13,876
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
DeepSeek V4 Pro 7.3 5.9 83.3% 1 23.62s 5,633 229 1,710
DeepSeek V4 Flash 10.0 10.0 100.0% 0 28.03s 7,290 201 1,179
DeepSeek V3.2 10.0 10.0 100.0% 0 36.09s 7,388 207 7,693
Kimi K2.6 10.0 10.0 100.0% 0 20.38s 7,014 316 11,305
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
DeepSeek V4 Pro 2.9 7.2 11.1% 1 205.66s 430 10,529 28,089
DeepSeek V4 Flash 4.1 4.4 44.5% 2 100.31s 666 27 59,249
DeepSeek V3.2 2.9 4.4 22.2% 2 24.27s 472 21 6,838
Kimi K2.6 5.3 7.2 44.4% 1 202.38s 326 47,035 98,262
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
DeepSeek V4 Pro 6.1 3.1 66.7% 1 25.09s 314 76 1,152
DeepSeek V4 Flash 6.1 3.1 66.7% 1 25.15s 471 79 632
DeepSeek V3.2 3.4 2.5 33.3% 1 58.29s 314 49 2,189
Kimi K2.6 10.0 10.0 100.0% 0 17.83s 477 3,981 4,472
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
DeepSeek V4 Pro 10.0 10.0 100.0% 0 41.16s 627 205 2,416
DeepSeek V4 Flash 10.0 10.0 100.0% 0 15.36s 627 63 1,622
DeepSeek V3.2 10.0 10.0 100.0% 0 35.78s 627 1,397 2,845
Kimi K2.6 10.0 10.0 100.0% 0 12.53s 669 3,977 5,269
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
DeepSeek V4 Pro 5.9 7.2 55.6% 1 34.84s 544 139 4,019
DeepSeek V4 Flash 8.2 7.2 88.9% 1 26.11s 594 196 1,767
DeepSeek V3.2 7.0 7.2 55.6% 1 37.69s 594 518 6,375
Kimi K2.6 6.0 7.4 55.6% 1 25.06s 651 13,860 17,599
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
DeepSeek V4 Pro 10.0 10.0 100.0% 0 21.33s 8,079 372 593
DeepSeek V4 Flash 10.0 10.0 100.0% 0 74.73s 8,079 228 542
DeepSeek V3.2 10.0 10.0 100.0% 0 34.81s 8,307 507 859
Kimi K2.6 10.0 10.0 100.0% 0 8.92s 5,286 248 1,011
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
DeepSeek V4 Pro 3.0 10.0 0.0% 0 39.14s 183 53 3,807
DeepSeek V4 Flash 3.0 10.0 0.0% 0 54.46s 183 8,516 8,531
DeepSeek V3.2 3.0 10.0 0.0% 0 83.99s 183 20 7,019
Kimi K2.6 3.0 10.0 0.0% 0 130.27s 213 15,710 16,177

Быстрое сравнение

Сменить пару сравнения