Навигация
AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs MoonshotAI: Kimi K2.6

Сводка

Сравнение benchmark Claude Opus 4.6 vs Kimi K2.6: Kimi K2.6 лидирует по среднему баллу: 7.8 vs 7.7. Kimi K2.6 имеет более низкую стоимость benchmark: $0.888 vs $2.053. Claude Opus 4.6 быстрее: 25.89s vs 71.67s, с долей успешных попыток 61.9% vs 65.1%.

Рекомендуемая модель: Kimi K2.6 - Здесь у него лучший балл (7.8), при этом он примерно в 2.3 раза дешевле, чем Claude Opus 4.6.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-02

Метрика Claude Opus 4.6 Claude Opus 4.6 medium Релиз: 2026-02-05 Kimi K2.6 Kimi K2.6 medium Релиз: 2026-04-20 Бесплатно доступно
Оценка 7.7 7.8
Ранг #40 #36
Надежность 10.0 10.0
Стабильность 8.8 8.6
Тестов верно
Доля успешных попыток 61.9% 65.1%
Нестабильные тесты 3 3
Всего запусков 63 63
Стоимость за результат 17.103 8.358
Общая стоимость $2.053 $0.888
Цена входа $5.000 / 1M $0.660 / 1M
Цена выхода $25.000 / 1M $3.410 / 1M
Общее число входных токенов 53,227 29,450
Выходные токены 47,446 102,923
Токены рассуждений 24,000 254,094
Время ответа (среднее) 25.89s 71.67s
Время ответа (макс.) 83.40s 406.78s
Время ответа (суммарно) 362.49s 1433.36s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#40 Claude Opus 4.6

medium
Неверный SVG
Стоимость
$0.000
Время
300.0s
Токены
0 tok

#36 MoonshotAI: Kimi K2.6

medium
Стоимость
$0.013
Время
103.4s
Токены
3,620 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.6 6.4 5.8 66.7% 2 7.45s 840 986 1,071
Kimi K2.6 7.0 8.0 66.7% 1 11.59s 618 7,115 8,934
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.6 5.7 7.1 44.4% 1 30.10s 8,522 13,057 4,121
Kimi K2.6 5.7 8.6 33.3% 0 214.42s 2,925 9,970 77,189
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 76.66s 20,685 8,178 5,194
Kimi K2.6 10.0 10.0 100.0% 0 40.96s 11,271 711 13,876
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 7.37s 8,676 691 757
Kimi K2.6 10.0 10.0 100.0% 0 20.38s 7,014 316 11,305
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.6 3.0 10.0 0.0% 0 83.40s 674 14,642 8,687
Kimi K2.6 5.3 7.2 44.4% 1 202.38s 326 47,035 98,262
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 5.04s 564 188 292
Kimi K2.6 10.0 10.0 100.0% 0 17.83s 477 3,981 4,472
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 2.43s 792 266 467
Kimi K2.6 10.0 10.0 100.0% 0 12.53s 669 3,977 5,269
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.6 7.7 10.0 66.7% 0 4.71s 816 532 630
Kimi K2.6 6.0 7.4 55.6% 1 25.06s 651 13,860 17,599
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.6 10.0 10.0 100.0% 0 9.73s 11,454 861 329
Kimi K2.6 10.0 10.0 100.0% 0 8.92s 5,286 248 1,011
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Входные токены Выходные токены Токены рассуждений
Claude Opus 4.6 3.0 10.0 0.0% 0 63.24s 204 8,045 2,452
Kimi K2.6 3.0 10.0 0.0% 0 130.27s 213 15,710 16,177

Быстрое сравнение

Сменить пару сравнения