Перейти к содержанию

6.6.10 Машина создаёт видео

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Ещё одно большое и сложное направление для генеративных моделей — создание видео, хотя и здесь уже существуют первые прототипы решений для некоторых задач. Например, весьма впечатляющие результаты получены для задачи подмены лиц людей в видеороликах.

Благодаря этому в наш лексикон вошёл новый термин — «дипфейк» [deepfake] (от понятий deep learning — глубокое обучение и fake — подделка). Под дипфейками понимают изображения или видео, с которыми при помощи алгоритмов глубокого обучения была произведена серьёзная манипуляция (обычно заключающаяся в подмене действующих лиц). Дипфейки могут быть основой ложных новостных сообщений, мистификаций, финансового мошенничества, а также порнороликов с участием знаменитостей (или людей, ставших объектами так называемой порномести [revenge porn] — то есть размещения в публичном доступе материалов сексуального характера без согласия изображённого в них лица). Именно из-за страхов перед ненадлежащим использованием подобных технологий дипфейки, по всей видимости, и получили эту уничижительную кличку. Между тем эти же методы могут с успехом применяться в искусстве. Например, в марте 2018 г. поп-арт-художник Йозеф Айерле представил публике музыкальный клип на песню «Купи меня» [Comprami] итальянской певицы Виолы Валентино. В этом клипе (он получил название «Эмоции навсегда 2.0: в главной роли Орнелла Мути» (Un’emozione per sempre 2.0: starring Ornella Muti)) итальянская кинозвезда Орнелла Мути путешествует из 1978-го в 2018-й. Айерле использовал съёмки фотомодели Кендалл Дженнер. Нейросетевая модель заменила лицо Дженнер лицом Мути, таким образом технически в клипе мы можем наблюдать несуществующего человека с телом Кендалл Дженнер и лицом Орнеллы Мути[1], [2].

В 2019 г. американский артист Джим Мескимен опубликовал видео, в котором он читает своё стихотворение «Пожалейте бедного импрессиониста» (Pity the Poor Impressionist), попеременно принимая обличие 20 различных знаменитостей — от Джорджа Клуни и Роберта Де Ниро до Арнольда Шварценеггера и Джорджа Буша — младшего[3].

Технологии дипфейков открывают новые перспективы в кинематографе и рекламе. В приключенческом фильме 2016 г. «Изгой-один. Звёздные войны: Истории» (Rogue One: A Star Wars Story) на экране вновь появились молодая принцесса Лея и гранд-мофф Таркин. Исполнительнице роли Леи, Кэрри Фишер, на момент съёмок фильма было почти 60, а Питер Кушинг, сыгравший Таркина, умер более чем за 20 лет до начала съёмок. Для воссоздания образов артистов при помощи «классических» технологий CGI (Computer-Generated Imaginery, Сгенерированные компьютером изображения), таких как 3D-сканирование и скульптурное моделирование, создателям потребовались специальное оборудование и трудоёмкий процесс, для выполнения которого была привлечена большая команда специалистов[4], [5], [6], [7]. Два года спустя создатель YouTube-канала derpfakes, молодой специалист по машинному обучению из Великобритании, продемонстрировал на своём канале фрагменты фильма «Хан Соло. Звёздные войны: Истории» (Solo: A Star Wars Story), в которых на место Олдена Эренрайка, сыгравшего в этом фильме главного героя, было вмонтировано лицо молодого Харрисона Форда. И хотя результат не был на 100% идеальным, он смотрелся, пожалуй, не хуже, чем творение профессиональных «клоноделов»[8]. Появление цифровых двойников в кино послужило толчком к дискуссиям о «призрачном актёрстве» [ghost acting][9], [10]. В вышедшем в конце 2020 г. предновогоднем рекламном ролике «Сбера» в роли Жоржа Милославского появился воссозданный при помощи нейронных сетей молодой Леонид Куравлёв[11], что также спровоцировало активную полемику в прессе и социальных сетях[12], [13].

В наши дни самостоятельные эксперименты в области дипфейков может осуществить каждый желающий, для этого можно воспользоваться одним из инструментов с открытым исходным кодом — например Faceswap[14] или DeepFaceLab[15], [16].

Современные генеративные модели могут также создавать видео на основе статических изображений. Например, авторы работы «Двигательная модель первого порядка для анимации изображений» (First Order Motion Model for Image Animation)[17] демонстрируют, как нейросетевая модель заставляет двигаться фотографии и рисунки, привязав их к управляющему видео. Таким образом можно «оживить» портрет или старинное фото. В целом подход, базирующийся на генерации нового видео на основе геометрии опорного, приобрёл в последние годы заметную популярность. Управляющая информация из исходного видео извлекается при помощи различных вспомогательных нейросетей, например упоминавшейся ранее ControlNet или какой-либо сети, предназначенной для получения карты глубин, например MiDaS[18]. Такой подход реализован, в частности, в моделях Gen-1 и Gen-2 от компании Runway Research[19], [20].

Успехи в области синтеза произвольных видео пока что куда более скромные. Модели, подобные DVD-GAN[21] от DeepMind или TGAN-F[22], — те же Gen-1 и Gen-2, Make-A-Video[23], CogVideo[24], Text2Video-Zero[25], VideoFusion (она же ModelScope text2video 1.7B)[26], [27] — способны генерировать короткие фрагменты видео небольшого разрешения, при этом степень их правдоподобия пока оставляет желать лучшего. Впрочем, уже сейчас вы можете порадовать себя жутковатыми видеороликами с Уиллом Смитом, поедающим непокорные спагетти. В целом прогресс генеративных моделей в синтезе изображений оставляет мало сомнений в том, что и задача генерации видео будет в обозримом будущем решена на весьма качественном уровне.

Loading comments...
  1. Cizek K., Uricchio W., Wolozin S. (2019). Media co-creation with non-human systems / Cizek K., Uricchio W., Anderson J., Carter M. A., Detroit Narrative Agency, Harris T. A., Holmes M., Lachman R., Massiah L., Mertes C., Rafsky S., Stephenson M., Winger-Bearskin A., Wolozin S. (2019). Collective Wisdom. Massachusetts Institute of Technology // https://doi.org/10.21428/ba67f642.f7c1b7e5
  2. Ayerle J. (2018). Un'emozione per sempre 2.0: starring Ornella Muti / YouTube, Mar 23, 2018 // https://www.youtube.com/watch?v=c1vVHAY8Mc4
  3. Reichert C. (2019). This deepfake shows an impressionist taking on 20 celebrities, convincingly / c|net, Oct. 10, 2019 // https://www.cnet.com/news/this-deepfake-shows-an-impressionist-take-on-20-celebrities-convincingly/
  4. Grossman D. (2017). How LucasFilm Made Grand Moff Tarkin Look Real in 'Rogue One' / Popular Mechanics, Jan 6, 2017 // https://www.popularmechanics.com/culture/movies/a24641/grand-moff-tarkin-rogue-one/
  5. Orange B. A. (2016). Lucasfilm Responds to Rogue One CG Character Backlash / MovieWeb, December 27, 2016 // https://movieweb.com/rogue-one-tarkin-leia-cg-character-backlash-lucasfilm/
  6. Clarke C. (2017). How 3D scanning brought grand moff Tarkin back to life for Rogue One / 3D Printing Industry, January 27th 2017 // https://3dprintingindustry.com/news/3d-scanning-brought-grand-moff-tarkin-back-life-rogue-one-104458/
  7. Itzkoff D. (2016). How ‘Rogue One’ Brought Back Familiar Faces / The New York Times, Dec. 27, 2016 // https://www.nytimes.com/2016/12/27/movies/how-rogue-one-brought-back-grand-moff-tarkin.html
  8. Grossman D. (2018). Here's Harrison Ford Starring in 'Solo' Thanks to Deepfakes / Popular Mechanics, Oct, 17, 2018 // https://www.popularmechanics.com/culture/movies/a23867069/harrison-ford-han-solo-deepfakes/
  9. Radulovic P. (2018). Harrison Ford is the star of Solo: A Star Wars Story thanks to deepfake technology / Polygon, Oct 17, 2018 // https://www.polygon.com/2018/10/17/17989214/harrison-ford-solo-movie-deepfake-technology
  10. Winick E. (2018). How acting as Carrie Fisher's puppet made a career for Rogue One's Princess Leia / MIT Technology Review, October 16, 2018 // https://www.technologyreview.com/2018/10/16/139739/how-acting-as-carrie-fishers-puppet-made-a-career-for-rogue-ones-princess-leia/
  11. Петров О. (2020). Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва / Хабр, 2 декабря // https://habr.com/ru/company/sberbank/blog/530876/
  12. Буйлов М. (2020). Сберегательный образ жулика / Коммерсант. № 227 от 10.12.2020. С. 7 // https://www.kommersant.ru/doc/4604689
  13. Старовойтов О. (2020). Сбер 2020 и его амбассадор Жорж Милославский / finversia, 13.12.2020 // https://www.finversia.ru/publication/sber-2020-i-ego-ambassador-zhorzh-miloslavskii-86613
  14. https://github.com/deepfakes/faceswap
  15. Perov I., Gao D., Chervoniy N., Liu K., Marangonda S., Umé C., Mr. Dpfks, Facenheim C. S., RP L., Jiang J., Zhang S., Wu P., Zhou B., Zhang W. (2020). DeepFaceLab: A simple, flexible and extensible face swapping framework // https://arxiv.org/abs/2005.05535
  16. https://github.com/iperov/DeepFaceLab
  17. Siarohin A., Lathuilière S., Tulyakov S., Ricci E., Sebe N. (2020). First Order Motion Model for Image Animation // https://arxiv.org/abs/2003.00196
  18. Ranftl R., Lasinger K., Hafner D., Schindler K., Koltun V. (2019). Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer // https://arxiv.org/abs/1907.01341
  19. Esser P., Chiu J., Atighehchian P., Granskog J., Germanidis A. (2023). Structure and Content-Guided Video Synthesis with Diffusion Models // https://arxiv.org/abs/2302.03011
  20. Runway Research (2023). Gen-2: The Next Step Forward for Generative AI. // https://research.runwayml.com/gen2
  21. Clark A., Donahue J., Simonyan K. (2019). Adversarial Video Generation on Complex Datasets // https://arxiv.org/abs/1907.06571
  22. Kahembwe E., Ramamoorthy S. (2019). Lower Dimensional Kernels for Video Discriminators // https://arxiv.org/abs/1912.08860
  23. Singer U., Polyak A., Hayes T., Yin X., An J., Zhang S., Hu Q., Yang H., Ashual O., Gafni O., Parikh D., Gupta S., Taigman Y. (2022). Make-A-Video: Text-to-Video Generation without Text-Video Data // https://arxiv.org/abs/2209.14792
  24. Hong W., Ding M., Zheng W., Liu X., Tang J. (2022). CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers // https://arxiv.org/abs/2205.15868
  25. Khachatryan L., Movsisyan A., Tadevosyan V., Henschel R., Wang Z., Navasardyan S., Shi H. (2023). Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators // https://arxiv.org/abs/2303.13439
  26. Luo Z., Chen D., Zhang Y., Huang Y., Wang L., Shen Y., Zhao D., Zhou J., Tan T. (2023). VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation // https://arxiv.org/abs/2303.08320
  27. Храпов А. (2023). Диффузионная нейросеть ModelScope text2video 1.7B — создаём видео по текстовому описанию у себя дома. / Хабр, 23 мар 2023 // https://habr.com/ru/articles/724284/