ByteDance Seed: Seed-2.0-Lite vs OpenAI: gpt-oss-120b
Сводка
Сравнение benchmark Seed-2.0-Lite vs gpt-oss-120b: gpt-oss-120b лидирует по среднему баллу: 6.1 vs 5.8. gpt-oss-120b имеет более низкую стоимость benchmark: $0.013 vs $0.019. Seed-2.0-Lite быстрее: 2.49s vs 22.28s, с долей успешных попыток 46.0% vs 52.4%.
Рекомендуемая модель: Seed-2.0-Lite - Его балл близок к лучшему здесь (5.8 против 6.1), и он отвечает примерно в 9.0 раза быстрее, чем gpt-oss-120b.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-10
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
8.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
8.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 13Время ответа (среднее)2.49sВремя ответа (макс.)6.70sВремя ответа (суммарно)52.26sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 9Не соблюдены инструкции: 3Время ответа (среднее)22.28sВремя ответа (макс.)68.16sВремя ответа (суммарно)311.96sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
46.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
52.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
4Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
5Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
63Всего запусков…
Стоимость за результат
0.228Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.141Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.019Общая стоимость (текущая цена)…
$0.013Общая стоимость (текущая цена)…
Цена входа
$0.250 / 1MЦена входа…
$0.039 / 1MЦена входа…
Цена выхода
$2.000 / 1MЦена выхода…
$0.180 / 1MЦена выхода…
Общее число входных токенов
46,573Общее число входных токенов…
39,084Общее число входных токенов…
Выходные токены
3,259Выходные токены…
20,013Выходные токены…
Токены рассуждений
0Токены рассуждений…
50,233Токены рассуждений…
Время ответа (среднее)
2.49sВремя ответа (среднее)…
22.28sВремя ответа (среднее)…
Время ответа (макс.)
6.70sВремя ответа (макс.)…
68.16sВремя ответа (макс.)…
Время ответа (суммарно)
52.26sВремя ответа (суммарно)…
311.96sВремя ответа (суммарно)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
5.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
16.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Время ответа (среднее)2.43sВремя ответа (макс.)6.70sВремя ответа (суммарно)9.73sТест считается полностью пройденным, только если все его прогоны успешны.…
9.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)10.21sВремя ответа (макс.)19.76sВремя ответа (суммарно)20.43sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.83sВремя ответа (макс.)4.61sВремя ответа (суммарно)8.49sТест считается полностью пройденным, только если все его прогоны успешны.…
7.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
55.6%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)38.37sВремя ответа (макс.)68.16sВремя ответа (суммарно)115.10sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)6.59sВремя ответа (макс.)6.59sВремя ответа (суммарно)6.59sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)31.18sВремя ответа (макс.)31.18sВремя ответа (суммарно)31.18sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.82sВремя ответа (макс.)1.97sВремя ответа (суммарно)3.63sТест считается полностью пройденным, только если все его прогоны успешны.…
5.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.98sВремя ответа (макс.)1.98sВремя ответа (суммарно)1.98sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
22.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)1.33sВремя ответа (макс.)1.53sВремя ответа (суммарно)4.00sТест считается полностью пройденным, только если все его прогоны успешны.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
22.2%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)50.92sВремя ответа (макс.)50.92sВремя ответа (суммарно)50.92sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.45sВремя ответа (макс.)3.45sВремя ответа (суммарно)3.45sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)7.90sВремя ответа (макс.)7.90sВремя ответа (суммарно)7.90sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.06sВремя ответа (макс.)1.09sВремя ответа (суммарно)2.12sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)7.63sВремя ответа (макс.)7.63sВремя ответа (суммарно)7.63sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.78sВремя ответа (макс.)5.20sВремя ответа (суммарно)8.34sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)21.71sВремя ответа (макс.)32.40sВремя ответа (суммарно)43.41sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.94sВремя ответа (макс.)3.94sВремя ответа (суммарно)3.94sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)6.91sВремя ответа (макс.)6.91sВремя ответа (суммарно)6.91sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.96sВремя ответа (макс.)1.96sВремя ответа (суммарно)1.96sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)26.51sВремя ответа (макс.)26.51sВремя ответа (суммарно)26.51sТест считается полностью пройденным, только если все его прогоны успешны.…