Anthropic: Claude Opus 4.8 vs MoonshotAI: Kimi K2.7 Code
Сводка
Сравнение benchmark Claude Opus 4.8 vs Kimi K2.7 Code: Claude Opus 4.8 лидирует по среднему баллу: 7.2 vs 7.0. Claude Opus 4.8 имеет более низкую стоимость benchmark: $0.539 vs $0.669. Claude Opus 4.8 быстрее: 3.47s vs 83.60s, с долей успешных попыток 61.9% vs 66.7%.
Рекомендуемая модель: Claude Opus 4.8 - Здесь у него лучший балл (7.2), и он отвечает примерно в 24.1 раза быстрее, чем Kimi K2.7 Code.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-12
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
9.2Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
9.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
7.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 5Тайм-аут: 3Ошибка API: 1Не соблюдены инструкции: 1Время ответа (среднее)83.60sВремя ответа (макс.)365.80sВремя ответа (суммарно)1671.99sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
61.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
6Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
63Всего запусков…
Стоимость за результат
4.485Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
6.074Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.539Общая стоимость (текущая цена)…
$0.669Общая стоимость (текущая цена)…
Цена входа
$5.000 / 1MЦена входа…
$0.950 / 1MЦена входа…
Цена выхода
$25.000 / 1MЦена выхода…
$4.000 / 1MЦена выхода…
Общее число входных токенов
67,104Общее число входных токенов…
25,991Общее число входных токенов…
Выходные токены
8,107Выходные токены…
80,516Выходные токены…
Токены рассуждений
0Токены рассуждений…
161,391Токены рассуждений…
Время ответа (среднее)
3.47sВремя ответа (среднее)…
83.60sВремя ответа (среднее)…
Время ответа (макс.)
17.73sВремя ответа (макс.)…
365.80sВремя ответа (макс.)…
Время ответа (суммарно)
72.90sВремя ответа (суммарно)…
1671.99sВремя ответа (суммарно)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Время ответа (среднее)3.40sВремя ответа (макс.)6.36sВремя ответа (суммарно)13.58sТест считается полностью пройденным, только если все его прогоны успешны.…
5.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)11.56sВремя ответа (макс.)16.30sВремя ответа (суммарно)46.24sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)3.29sВремя ответа (макс.)4.34sВремя ответа (суммарно)9.88sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
77.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)146.73sВремя ответа (макс.)365.80sВремя ответа (суммарно)440.18sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)17.73sВремя ответа (макс.)17.73sВремя ответа (суммарно)17.73sТест считается полностью пройденным, только если все его прогоны успешны.…
1.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)34.83sВремя ответа (макс.)34.83sВремя ответа (суммарно)34.83sТест считается полностью пройденным, только если все его прогоны успешны.…
5.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.77sВремя ответа (макс.)1.93sВремя ответа (суммарно)3.53sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)12.27sВремя ответа (макс.)18.56sВремя ответа (суммарно)24.54sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.66sВремя ответа (макс.)2.16sВремя ответа (суммарно)4.99sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 2Время ответа (среднее)213.29sВремя ответа (макс.)331.73sВремя ответа (суммарно)639.88sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.48sВремя ответа (макс.)3.48sВремя ответа (суммарно)3.48sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)10.78sВремя ответа (макс.)10.78sВремя ответа (суммарно)10.78sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.37sВремя ответа (макс.)1.40sВремя ответа (суммарно)2.73sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.39sВремя ответа (макс.)6.01sВремя ответа (суммарно)10.78sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Время ответа (среднее)2.74sВремя ответа (макс.)3.46sВремя ответа (суммарно)8.22sТест считается полностью пройденным, только если все его прогоны успешны.…
7.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)41.00sВремя ответа (макс.)113.78sВремя ответа (суммарно)123.01sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.35sВремя ответа (макс.)5.35sВремя ответа (суммарно)5.35sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)3.41sВремя ответа (макс.)3.41sВремя ответа (суммарно)3.41sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)341.76sВремя ответа (макс.)341.76sВремя ответа (суммарно)341.76sТест считается полностью пройденным, только если все его прогоны успешны.…