Новые инструменты превращают аудиоклипы в реалистическое видео

Как детализировано в газете, которая будет представлена 2 августа в 2017 SIGGRAPH, команда успешно произвела высоко реалистическое видео бывшего президента Барака Обамы, говорящего о терроризме, отцовстве, создании рабочих мест и других темах, используя аудиоклипы тех речей и существующих еженедельных видео адресов, которые были первоначально по различной теме.«Подобные результаты никогда не показывали прежде», сказал Айра Кемелмакэр-Шлизермен, доцент в Школе Пола Г. Аллена UW Информатики & Разработки. «У реалистического преобразования аудио к видео есть практическое применение как улучшение видео конференц-связи для встреч, а также футуристических, таких как способность держать разговор с исторической фигурой в виртуальной реальности, создавая зрительный ряд только из аудио. Это – вид прорыва, который поможет позволить те следующие шаги».

В визуальной форме синхронизации губы система преобразовывает аудио файлы речи человека в реалистические формы рта, которые тогда привиты на и смешаны с головой того человека от другого существующего видео.Команда выбрала Обаму, потому что методу машинного обучения нужно доступное видео человека, чтобы извлечь уроки из, и были часы президентских видео в общественном достоянии. «В будущем видео инструменты беседы как скайп или Messenger позволят любому собрать видео, которые могли использоваться, чтобы обучить компьютерные модели», сказал Кемелмакэр-Шлизермен.Поскольку потоковое аудио по Интернету поднимает намного меньше пропускной способности, чем видео, у новой системы есть потенциал, чтобы закончить видео-чаты, которые постоянно рассчитывают из плохих связей.

«Когда Вы смотрите скайп или Google Hangouts, часто связь запинающаяся и с низкой разрешающей способностью и действительно неприятная, но часто аудио довольно хорошо», сказали соавтор и Аллен Школьный преподаватель Стив Сейц. «Таким образом, если бы Вы могли бы использовать аудио, чтобы произвести много видео более высокого качества, которое было бы потрясающим».Полностью изменяя процесс – питающееся видео в сеть вместо просто аудио – команда могла также потенциально разработать алгоритмы, которые могли обнаружить, реально ли видео или произведено.Новый инструмент машинного обучения делает значительные успехи в преодолении, что известно как «странная долина» проблема, которая преследовала усилия создать реалистическое видео из аудио.

Когда синтезируемые человеческие сходства, кажется, почти реальны – но все еще суметь так или иначе промахнуться – люди находят их жуткими или нерасполагающими.«Люди особенно чувствительны к любым областям Вашего рта, которые не выглядят реалистичными», сказал ведущий автор Супэзорн Сууоджэнэкорн, недавний докторский выпускник в Школе Аллена. «Если Вы не отдаете зубное право или шаги подбородка не в то время, люди могут определить его сразу же, и оно собирается посмотреть фальшивка. Таким образом, Вы должны отдать область рта отлично, чтобы добраться вне странной долины».Ранее, конверсионные процессы аудио к видео привлекли снимающихся многократных людей в студию, говоря те же самые предложения много раз, чтобы попытаться захватить, как конкретный звук коррелирует к различным формам рта, который является дорогим, утомительным и отнимающим много времени.

В отличие от этого, Suwajanakorn разработал алгоритмы, которые могут извлечь уроки из видео, которые существуют «в дикой природе» в Интернете или в другом месте.«Есть миллионы часов видео, которые уже существуют из интервью, видео-чатов, фильмов, телевизионных программ и других источников.

И эти глубокие алгоритмы изучения – очень голодные данные, таким образом, это – хороший матч, чтобы сделать это этот путь», сказал Сууоджэнэкорн.Вместо того, чтобы синтезировать заключительное видео непосредственно от аудио, команда занялась проблемой в двух шагах. Первое включенное обучение нейронная сеть, чтобы посмотреть ролики человека и перевести различные аудио звуки на основные формы рта.

Объединяя предыдущее исследование из подводной Лаборатории Графики и Изображения подходят к новому методу синтеза рта, они тогда смогли реалистично нанести и смешать те формы рта и структуры на существующем справочном видео того человека. Другое ключевое понимание должно было позволить маленькому изменению времени позволять нейронной сети ожидать то, что спикер собирается заявить затем.

Новый синхронизирующий губу процесс позволил исследователям создать реалистические видео Обамы, говорящего в Белом доме, используя слова, которые он произнес в телевизионном ток-шоу или во время интервью несколько десятилетий назад.В настоящее время нейронная сеть разработана, чтобы учиться на одном человеке за один раз, означая, что голос Обамы – произносить слова, которые он на самом деле произнес – является единственной информацией, используемой, чтобы «вести» синтезируемое видео.

Будущие шаги, однако, включают помощь алгоритмам сделать вывод через ситуации, чтобы признать, что голос человека и речевые образцы с меньшим количеством данных – с только часом видео извлекают уроки из, например, вместо 14 часов.«Вы не можете только взять ничей голос и превратить его в видео Обамы», сказал Зайц. «Мы очень сознательно отказались идти по пути помещения слов других людей в чей-то рот.

Мы просто берем реальные слова, которые кто-то произнес и превращение их в реалистическое видео того человека».