6.6.10 Машина создаёт видео: различия между версиями
Нет описания правки |
Нет описания правки |
||
Строка 14: | Строка 14: | ||
Успехи в области синтеза произвольных видео пока что куда более скромные. Модели, подобные DVD-GAN<ref>Clark A., Donahue J., Simonyan K. (2019). Adversarial Video Generation on Complex Datasets // https://arxiv.org/abs/1907.06571</ref> от DeepMind или TGAN-F<ref>Kahembwe E., Ramamoorthy S. (2019). Lower Dimensional Kernels for Video Discriminators // https://arxiv.org/abs/1912.08860</ref>, — те же Gen-1 и Gen-2, Make-A-Video<ref>Singer U., Polyak A., Hayes T., Yin X., An J., Zhang S., Hu Q., Yang H., Ashual O., Gafni O., Parikh D., Gupta S., Taigman Y. (2022). Make-A-Video: Text-to-Video Generation without Text-Video Data // https://arxiv.org/abs/2209.14792</ref>, CogVideo<ref>Hong W., Ding M., Zheng W., Liu X., Tang J. (2022). CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers // https://arxiv.org/abs/2205.15868</ref>, Text2Video-Zero<ref>Khachatryan L., Movsisyan A., Tadevosyan V., Henschel R., Wang Z., Navasardyan S., Shi H. (2023). Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators // https://arxiv.org/abs/2303.13439</ref>, VideoFusion (она же ModelScope text2video 1.7B)<ref>Luo Z., Chen D., Zhang Y., Huang Y., Wang L., Shen Y., Zhao D., Zhou J., Tan T. (2023). VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation // https://arxiv.org/abs/2303.08320</ref><sup>,</sup> <ref>Храпов А. (2023). Диффузионная нейросеть ModelScope text2video 1.7B — создаём видео по текстовому описанию у себя дома. / Хабр, 23 мар 2023 // https://habr.com/ru/articles/724284/</ref> — способны генерировать короткие фрагменты видео небольшого разрешения, при этом степень их правдоподобия пока оставляет желать лучшего. Впрочем, уже сейчас вы можете порадовать себя жутковатыми видеороликами с Уиллом Смитом, поедающим непокорные спагетти. В целом прогресс генеративных моделей в синтезе изображений оставляет мало сомнений в том, что и задача генерации видео будет в обозримом будущем решена на весьма качественном уровне. | Успехи в области синтеза произвольных видео пока что куда более скромные. Модели, подобные DVD-GAN<ref>Clark A., Donahue J., Simonyan K. (2019). Adversarial Video Generation on Complex Datasets // https://arxiv.org/abs/1907.06571</ref> от DeepMind или TGAN-F<ref>Kahembwe E., Ramamoorthy S. (2019). Lower Dimensional Kernels for Video Discriminators // https://arxiv.org/abs/1912.08860</ref>, — те же Gen-1 и Gen-2, Make-A-Video<ref>Singer U., Polyak A., Hayes T., Yin X., An J., Zhang S., Hu Q., Yang H., Ashual O., Gafni O., Parikh D., Gupta S., Taigman Y. (2022). Make-A-Video: Text-to-Video Generation without Text-Video Data // https://arxiv.org/abs/2209.14792</ref>, CogVideo<ref>Hong W., Ding M., Zheng W., Liu X., Tang J. (2022). CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers // https://arxiv.org/abs/2205.15868</ref>, Text2Video-Zero<ref>Khachatryan L., Movsisyan A., Tadevosyan V., Henschel R., Wang Z., Navasardyan S., Shi H. (2023). Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators // https://arxiv.org/abs/2303.13439</ref>, VideoFusion (она же ModelScope text2video 1.7B)<ref>Luo Z., Chen D., Zhang Y., Huang Y., Wang L., Shen Y., Zhao D., Zhou J., Tan T. (2023). VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation // https://arxiv.org/abs/2303.08320</ref><sup>,</sup> <ref>Храпов А. (2023). Диффузионная нейросеть ModelScope text2video 1.7B — создаём видео по текстовому описанию у себя дома. / Хабр, 23 мар 2023 // https://habr.com/ru/articles/724284/</ref> — способны генерировать короткие фрагменты видео небольшого разрешения, при этом степень их правдоподобия пока оставляет желать лучшего. Впрочем, уже сейчас вы можете порадовать себя жутковатыми видеороликами с Уиллом Смитом, поедающим непокорные спагетти. В целом прогресс генеративных моделей в синтезе изображений оставляет мало сомнений в том, что и задача генерации видео будет в обозримом будущем решена на весьма качественном уровне. | ||
<references /> | |||
<comments /> | <comments /> |
Текущая версия от 21:56, 8 мая 2025
Ещё одно большое и сложное направление для генеративных моделей — создание видео, хотя и здесь уже существуют первые прототипы решений для некоторых задач. Например, весьма впечатляющие результаты получены для задачи подмены лиц людей в видеороликах.
Благодаря этому в наш лексикон вошёл новый термин — «дипфейк» [deepfake] (от понятий deep learning — глубокое обучение и fake — подделка). Под дипфейками понимают изображения или видео, с которыми при помощи алгоритмов глубокого обучения была произведена серьёзная манипуляция (обычно заключающаяся в подмене действующих лиц). Дипфейки могут быть основой ложных новостных сообщений, мистификаций, финансового мошенничества, а также порнороликов с участием знаменитостей (или людей, ставших объектами так называемой порномести [revenge porn] — то есть размещения в публичном доступе материалов сексуального характера без согласия изображённого в них лица). Именно из-за страхов перед ненадлежащим использованием подобных технологий дипфейки, по всей видимости, и получили эту уничижительную кличку. Между тем эти же методы могут с успехом применяться в искусстве. Например, в марте 2018 г. поп-арт-художник Йозеф Айерле представил публике музыкальный клип на песню «Купи меня» [Comprami] итальянской певицы Виолы Валентино. В этом клипе (он получил название «Эмоции навсегда 2.0: в главной роли Орнелла Мути» (Un’emozione per sempre 2.0: starring Ornella Muti)) итальянская кинозвезда Орнелла Мути путешествует из 1978-го в 2018-й. Айерле использовал съёмки фотомодели Кендалл Дженнер. Нейросетевая модель заменила лицо Дженнер лицом Мути, таким образом технически в клипе мы можем наблюдать несуществующего человека с телом Кендалл Дженнер и лицом Орнеллы Мути[1], [2].
В 2019 г. американский артист Джим Мескимен опубликовал видео, в котором он читает своё стихотворение «Пожалейте бедного импрессиониста» (Pity the Poor Impressionist), попеременно принимая обличие 20 различных знаменитостей — от Джорджа Клуни и Роберта Де Ниро до Арнольда Шварценеггера и Джорджа Буша — младшего[3].
Технологии дипфейков открывают новые перспективы в кинематографе и рекламе. В приключенческом фильме 2016 г. «Изгой-один. Звёздные войны: Истории» (Rogue One: A Star Wars Story) на экране вновь появились молодая принцесса Лея и гранд-мофф Таркин. Исполнительнице роли Леи, Кэрри Фишер, на момент съёмок фильма было почти 60, а Питер Кушинг, сыгравший Таркина, умер более чем за 20 лет до начала съёмок. Для воссоздания образов артистов при помощи «классических» технологий CGI (Computer-Generated Imaginery, Сгенерированные компьютером изображения), таких как 3D-сканирование и скульптурное моделирование, создателям потребовались специальное оборудование и трудоёмкий процесс, для выполнения которого была привлечена большая команда специалистов[4], [5], [6], [7]. Два года спустя создатель YouTube-канала derpfakes, молодой специалист по машинному обучению из Великобритании, продемонстрировал на своём канале фрагменты фильма «Хан Соло. Звёздные войны: Истории» (Solo: A Star Wars Story), в которых на место Олдена Эренрайка, сыгравшего в этом фильме главного героя, было вмонтировано лицо молодого Харрисона Форда. И хотя результат не был на 100% идеальным, он смотрелся, пожалуй, не хуже, чем творение профессиональных «клоноделов»[8]. Появление цифровых двойников в кино послужило толчком к дискуссиям о «призрачном актёрстве» [ghost acting][9], [10]. В вышедшем в конце 2020 г. предновогоднем рекламном ролике «Сбера» в роли Жоржа Милославского появился воссозданный при помощи нейронных сетей молодой Леонид Куравлёв[11], что также спровоцировало активную полемику в прессе и социальных сетях[12], [13].
В наши дни самостоятельные эксперименты в области дипфейков может осуществить каждый желающий, для этого можно воспользоваться одним из инструментов с открытым исходным кодом — например Faceswap[14] или DeepFaceLab[15], [16].
Современные генеративные модели могут также создавать видео на основе статических изображений. Например, авторы работы «Двигательная модель первого порядка для анимации изображений» (First Order Motion Model for Image Animation)[17] демонстрируют, как нейросетевая модель заставляет двигаться фотографии и рисунки, привязав их к управляющему видео. Таким образом можно «оживить» портрет или старинное фото. В целом подход, базирующийся на генерации нового видео на основе геометрии опорного, приобрёл в последние годы заметную популярность. Управляющая информация из исходного видео извлекается при помощи различных вспомогательных нейросетей, например упоминавшейся ранее ControlNet или какой-либо сети, предназначенной для получения карты глубин, например MiDaS[18]. Такой подход реализован, в частности, в моделях Gen-1 и Gen-2 от компании Runway Research[19], [20].
Успехи в области синтеза произвольных видео пока что куда более скромные. Модели, подобные DVD-GAN[21] от DeepMind или TGAN-F[22], — те же Gen-1 и Gen-2, Make-A-Video[23], CogVideo[24], Text2Video-Zero[25], VideoFusion (она же ModelScope text2video 1.7B)[26], [27] — способны генерировать короткие фрагменты видео небольшого разрешения, при этом степень их правдоподобия пока оставляет желать лучшего. Впрочем, уже сейчас вы можете порадовать себя жутковатыми видеороликами с Уиллом Смитом, поедающим непокорные спагетти. В целом прогресс генеративных моделей в синтезе изображений оставляет мало сомнений в том, что и задача генерации видео будет в обозримом будущем решена на весьма качественном уровне.
- ↑ Cizek K., Uricchio W., Wolozin S. (2019). Media co-creation with non-human systems / Cizek K., Uricchio W., Anderson J., Carter M. A., Detroit Narrative Agency, Harris T. A., Holmes M., Lachman R., Massiah L., Mertes C., Rafsky S., Stephenson M., Winger-Bearskin A., Wolozin S. (2019). Collective Wisdom. Massachusetts Institute of Technology // https://doi.org/10.21428/ba67f642.f7c1b7e5
- ↑ Ayerle J. (2018). Un'emozione per sempre 2.0: starring Ornella Muti / YouTube, Mar 23, 2018 // https://www.youtube.com/watch?v=c1vVHAY8Mc4
- ↑ Reichert C. (2019). This deepfake shows an impressionist taking on 20 celebrities, convincingly / c|net, Oct. 10, 2019 // https://www.cnet.com/news/this-deepfake-shows-an-impressionist-take-on-20-celebrities-convincingly/
- ↑ Grossman D. (2017). How LucasFilm Made Grand Moff Tarkin Look Real in 'Rogue One' / Popular Mechanics, Jan 6, 2017 // https://www.popularmechanics.com/culture/movies/a24641/grand-moff-tarkin-rogue-one/
- ↑ Orange B. A. (2016). Lucasfilm Responds to Rogue One CG Character Backlash / MovieWeb, December 27, 2016 // https://movieweb.com/rogue-one-tarkin-leia-cg-character-backlash-lucasfilm/
- ↑ Clarke C. (2017). How 3D scanning brought grand moff Tarkin back to life for Rogue One / 3D Printing Industry, January 27th 2017 // https://3dprintingindustry.com/news/3d-scanning-brought-grand-moff-tarkin-back-life-rogue-one-104458/
- ↑ Itzkoff D. (2016). How ‘Rogue One’ Brought Back Familiar Faces / The New York Times, Dec. 27, 2016 // https://www.nytimes.com/2016/12/27/movies/how-rogue-one-brought-back-grand-moff-tarkin.html
- ↑ Grossman D. (2018). Here's Harrison Ford Starring in 'Solo' Thanks to Deepfakes / Popular Mechanics, Oct, 17, 2018 // https://www.popularmechanics.com/culture/movies/a23867069/harrison-ford-han-solo-deepfakes/
- ↑ Radulovic P. (2018). Harrison Ford is the star of Solo: A Star Wars Story thanks to deepfake technology / Polygon, Oct 17, 2018 // https://www.polygon.com/2018/10/17/17989214/harrison-ford-solo-movie-deepfake-technology
- ↑ Winick E. (2018). How acting as Carrie Fisher's puppet made a career for Rogue One's Princess Leia / MIT Technology Review, October 16, 2018 // https://www.technologyreview.com/2018/10/16/139739/how-acting-as-carrie-fishers-puppet-made-a-career-for-rogue-ones-princess-leia/
- ↑ Петров О. (2020). Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва / Хабр, 2 декабря // https://habr.com/ru/company/sberbank/blog/530876/
- ↑ Буйлов М. (2020). Сберегательный образ жулика / Коммерсант. № 227 от 10.12.2020. С. 7 // https://www.kommersant.ru/doc/4604689
- ↑ Старовойтов О. (2020). Сбер 2020 и его амбассадор Жорж Милославский / finversia, 13.12.2020 // https://www.finversia.ru/publication/sber-2020-i-ego-ambassador-zhorzh-miloslavskii-86613
- ↑ https://github.com/deepfakes/faceswap
- ↑ Perov I., Gao D., Chervoniy N., Liu K., Marangonda S., Umé C., Mr. Dpfks, Facenheim C. S., RP L., Jiang J., Zhang S., Wu P., Zhou B., Zhang W. (2020). DeepFaceLab: A simple, flexible and extensible face swapping framework // https://arxiv.org/abs/2005.05535
- ↑ https://github.com/iperov/DeepFaceLab
- ↑ Siarohin A., Lathuilière S., Tulyakov S., Ricci E., Sebe N. (2020). First Order Motion Model for Image Animation // https://arxiv.org/abs/2003.00196
- ↑ Ranftl R., Lasinger K., Hafner D., Schindler K., Koltun V. (2019). Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer // https://arxiv.org/abs/1907.01341
- ↑ Esser P., Chiu J., Atighehchian P., Granskog J., Germanidis A. (2023). Structure and Content-Guided Video Synthesis with Diffusion Models // https://arxiv.org/abs/2302.03011
- ↑ Runway Research (2023). Gen-2: The Next Step Forward for Generative AI. // https://research.runwayml.com/gen2
- ↑ Clark A., Donahue J., Simonyan K. (2019). Adversarial Video Generation on Complex Datasets // https://arxiv.org/abs/1907.06571
- ↑ Kahembwe E., Ramamoorthy S. (2019). Lower Dimensional Kernels for Video Discriminators // https://arxiv.org/abs/1912.08860
- ↑ Singer U., Polyak A., Hayes T., Yin X., An J., Zhang S., Hu Q., Yang H., Ashual O., Gafni O., Parikh D., Gupta S., Taigman Y. (2022). Make-A-Video: Text-to-Video Generation without Text-Video Data // https://arxiv.org/abs/2209.14792
- ↑ Hong W., Ding M., Zheng W., Liu X., Tang J. (2022). CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers // https://arxiv.org/abs/2205.15868
- ↑ Khachatryan L., Movsisyan A., Tadevosyan V., Henschel R., Wang Z., Navasardyan S., Shi H. (2023). Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators // https://arxiv.org/abs/2303.13439
- ↑ Luo Z., Chen D., Zhang Y., Huang Y., Wang L., Shen Y., Zhao D., Zhou J., Tan T. (2023). VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation // https://arxiv.org/abs/2303.08320
- ↑ Храпов А. (2023). Диффузионная нейросеть ModelScope text2video 1.7B — создаём видео по текстовому описанию у себя дома. / Хабр, 23 мар 2023 // https://habr.com/ru/articles/724284/