Anthropic: Claude Opus 4.6 vs ByteDance Seed: Seed-2.0-Mini
Сводка
Сравнение benchmark Claude Opus 4.6 vs Seed-2.0-Mini: Claude Opus 4.6 лидирует по среднему баллу: 7.7 vs 7.4. Seed-2.0-Mini имеет более низкую стоимость benchmark: $0.044 vs $2.053. Claude Opus 4.6 быстрее: 25.89s vs 80.22s, с долей успешных попыток 61.9% vs 57.1%.
Рекомендуемая модель: Seed-2.0-Mini - Его балл близок к лучшему здесь (7.4 против 7.7), при этом он примерно в 47.1 раза дешевле, чем Claude Opus 4.6.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-12
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
6.7Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
8.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.3Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 5Неверный ответ: 3Не соблюдены инструкции: 1Время ответа (среднее)25.89sВремя ответа (макс.)83.40sВремя ответа (суммарно)362.49sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 5Неверный ответ: 4Не соблюдены инструкции: 1Время ответа (среднее)80.22sВремя ответа (макс.)262.83sВремя ответа (суммарно)1363.72sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
61.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
57.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
3Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
63Всего запусков…
Стоимость за результат
17.103Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.397Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$2.053Общая стоимость (текущая цена)…
$0.044Общая стоимость (текущая цена)…
Цена входа
$5.000 / 1MЦена входа…
$0.100 / 1MЦена входа…
Цена выхода
$25.000 / 1MЦена выхода…
$0.400 / 1MЦена выхода…
Общее число входных токенов
53,227Общее число входных токенов…
41,904Общее число входных токенов…
Выходные токены
47,446Выходные токены…
2,555Выходные токены…
Токены рассуждений
24,000Токены рассуждений…
95,974Токены рассуждений…
Время ответа (среднее)
25.89sВремя ответа (среднее)…
80.22sВремя ответа (среднее)…
Время ответа (макс.)
83.40sВремя ответа (макс.)…
262.83sВремя ответа (макс.)…
Время ответа (суммарно)
362.49sВремя ответа (суммарно)…
1363.72sВремя ответа (суммарно)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
5.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Время ответа (среднее)7.45sВремя ответа (макс.)11.88sВремя ответа (суммарно)14.90sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)74.75sВремя ответа (макс.)182.10sВремя ответа (суммарно)298.98sТест считается полностью пройденным, только если все его прогоны успешны.…
7.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 1Не соблюдены инструкции: 1Время ответа (среднее)30.10sВремя ответа (макс.)35.63sВремя ответа (суммарно)90.31sТест считается полностью пройденным, только если все его прогоны успешны.…
9.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Неверный ответ: 1Время ответа (среднее)220.48sВремя ответа (макс.)243.66sВремя ответа (суммарно)440.97sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)76.66sВремя ответа (макс.)76.66sВремя ответа (суммарно)76.66sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)262.83sВремя ответа (макс.)262.83sВремя ответа (суммарно)262.83sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.37sВремя ответа (макс.)7.37sВремя ответа (суммарно)7.37sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)24.27sВремя ответа (макс.)27.52sВремя ответа (суммарно)48.54sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Лишнее форматирование: 2Неверный ответ: 1Время ответа (среднее)83.40sВремя ответа (макс.)83.40sВремя ответа (суммарно)83.40sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 3Время ответа (среднее)0msВремя ответа (макс.)0msВремя ответа (суммарно)0msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.04sВремя ответа (макс.)5.04sВремя ответа (суммарно)5.04sТест считается полностью пройденным, только если все его прогоны успешны.…
3.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)36.65sВремя ответа (макс.)36.65sВремя ответа (суммарно)36.65sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.43sВремя ответа (макс.)2.43sВремя ответа (суммарно)2.43sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)17.47sВремя ответа (макс.)19.46sВремя ответа (суммарно)34.93sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.71sВремя ответа (макс.)4.75sВремя ответа (суммарно)9.41sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
88.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)31.79sВремя ответа (макс.)50.78sВремя ответа (суммарно)95.38sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)9.73sВремя ответа (макс.)9.73sВремя ответа (суммарно)9.73sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)88.68sВремя ответа (макс.)88.68sВремя ответа (суммарно)88.68sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)63.24sВремя ответа (макс.)63.24sВремя ответа (суммарно)63.24sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)56.76sВремя ответа (макс.)56.76sВремя ответа (суммарно)56.76sТест считается полностью пройденным, только если все его прогоны успешны.…