Теперь, технология, разработанная программистами Принстонского университета, может сделать для аудиозаписей человеческого голоса, что программное обеспечение обработки текста сделало для написанного слова.Программное обеспечение, названное VoCo, обеспечивает легкое средство добавить или заменить слово в аудиозаписи человеческого голоса, редактируя расшифровку стенограммы записи. Новые слова автоматически синтезируются голосом спикера, даже если они не появляются больше нигде в записи.
Система, которая использует сложный алгоритм, чтобы изучить и воссоздать звук конкретного голоса, могла однажды сделать подкасты редактирования и повествование в видео намного легче. Более широко технология могла обеспечить стартовую точку для создания персонализированных автоматизированных голосов, которые кажутся естественными.«VoCo обеспечивает быстрый взгляд на очень практическую технологию для редактирования звуковых дорожек, но это – также предвестник для будущих технологий, которые позволят человеческому голосу быть синтезированным и автоматизированным замечательными способами», сказал Адам Финкелштайн, преподаватель информатики в Принстоне.Зею Чжин, аспирант Принстона, рекомендуемый Финкелштайном, представит работу над конференцией SIGGRAPH Ассоциации вычислительной техники в июле.
Работа в Принстоне финансировалась Фондом Проекта X, который предоставляет финансирование семени инженерам для преследования спекулятивных проектов. Исследователи Принстона сотрудничали с учеными Готэмом Мисором, Стивеном Диверди и Джингваном Лу в Adobe Research.Команда описала развитие VoCo в газете, которая будет издана в июльском выпуске журнала Transactions on Graphics. Исследовательская группа отправила предварительную печать бумаги, а также видео, демонстрирующего проект и примеры синтезируемых голосов на их веб-страницах.
На мониторе пользовательский интерфейс VoCo выглядит подобным другому программному обеспечению редактирования аудио, такому как популярная программа редактирования подкаста Смелость или музыкальная программа редактирования Apple GarageBand. Это предлагает визуализацию формы волны звуковой дорожки и ряда сокращения, копии и инструментов пасты для редактирования. В отличие от других программ, однако, VoCo также увеличивает форму волны с текстовой расшифровкой стенограммы следа и позволяет пользователю заменять или вставлять новые слова, которые уже не существуют в течение следа просто, печатая в расшифровке стенограммы.
Когда пользователь печатает новое слово, VoCo обновляет звуковую дорожку, автоматически синтезируя новое слово, сшивая вместе отрывки аудио откуда-либо в повествовании.«В настоящее время аудио редакторы могут исключить части следа повествования и переместить клип от одного места до другого. Однако, если Вы хотите добавить слово, которое не существует в записи, это возможно только посредством кропотливого процесса метода проб и ошибок поиска маленьких аудио отрывков, которые могли бы совместиться достаточно хорошо, чтобы правдоподобно сформировать слово», сказал Финкелштайн. «VoCo автоматизирует поиск и сшивание процесса, и приводит к результатам, настолько типично нормальным еще лучше, чем созданные вручную аудио экспертами».
В основе VoCo алгоритм оптимизации, который ищет голосовую запись и выбирает самые лучшие комбинации частичных звуков слова, названных «фонемами», чтобы построить новые слова голосом пользователя. Чтобы сделать это, это не только должно найти отдельные фонемы, но также и найти последовательности их, что стежок вместе без резких переходов, а также вмещают их в существующее предложение так, чтобы новое слово гармонировало беспрепятственно. Слова произнесены с различным акцентом и интонацией в зависимости от того, где они падают в предложении, таким образом, контекст важен.
Для подсказок об этом контексте VoCo смотрит на звуковую дорожку предложения, которое автоматически синтезируется искусственным голосом из текстовой расшифровки стенограммы – та, которая кажется автоматизированной к человеческим ушам. Эта запись используется в качестве ориентира в создании нового слова. VoCo тогда соответствует частям звука от реальной человеческой голосовой записи, чтобы распознать слово в течение синтезируемого следа – техника, известная как «голосовое преобразование», которое вдохновило название проекта VoCo.
В случае, если синтезируемое слово не совершенно правильно, VoCo предлагает пользователям несколько версий слова, чтобы выбрать из. Система также обеспечивает продвинутого редактора, чтобы изменить подачу и продолжительность, позволяя опытным пользователям далее полировать след.Проверить, насколько эффективный их система была производящим подлинным зондированием, редактирует, исследователи попросили, чтобы люди слушали ряд звуковых дорожек, некоторые из которых были отредактированы с VoCo и другим, который был абсолютно естественным. Полностью автоматизированные версии были приняты за реальные записи больше чем 60 процентов времени.
Чжин, исследовательские интересы которого колеблются между аудио и машинным обучением, сказал, что голосовые конверсионные технологии открывают перспективу для диапазона заявлений вне редактирования звуковых дорожек. Например, люди, которые потеряли их голоса из-за травмы или болезни, могли бы быть в состоянии воссоздать свои голоса через автоматизированную систему.
«К нам приблизился человек, который имеет нейродегенеративное заболевание и может только говорить через текст с речевой системой, которой управляют его веки», сказал Чжин. «Голос кажется автоматизированным, как система, используемая Стивеном Хокингом, но он хочет, чтобы его молодая дочь услышала его реальный голос. Это могло бы однажды быть возможно проанализировать прошлые записи того, что он говорил и создало вспомогательное устройство, которое говорит его собственным голосом».На более легкой стороне Чжин сказал, что голосовое преобразование могло бы использоваться, чтобы возвратить длинные потерянные голоса культовых анимационных персонажей, такие как Bugs Bunny или Popeye. Такие голоса – и те из известных актеров или исторических фигур – могли тогда использоваться, чтобы создать повествование для новых фильмов, или даже интегрироваться в автоматизированных умных личных помощников как Siri Apple или Алекса Amazon.
Исследователи Принстона в настоящее время совершенствуют алгоритм VoCo, чтобы улучшить способность системы к интегрированным синтезируемым словам более гладко в звуковые дорожки. Они также работают, чтобы расширить возможности системы создать более длинные фразы или даже все предложения, синтезируемые от голоса рассказчика.Финкелштайн сказал, что редактирование программного обеспечения как VoCo поднимает важные вопросы о том, как рассматривать цифровой контент, когда мы знаем, что это, возможно, было изменено, чтобы изменить его значение. «Этот вопрос вышел на первый план для фотографии несколько десятилетий назад с прибытием программного обеспечения редактирования цифрового изображения как Adobe Photoshop», сказал он.
Он сказал появление относительно быстрого и легкого фото редактирования, ведомого к долгим обсуждениям надежности фотографий в новостях. Даже, прежде чем цифровое редактирование стало доступным, у опытных фотографов было много уловок для изменения их печатей, но новые программы сделали его быстрее и легче, и не потребовали той же самой степени экспертных знаний.«Сегодня мы принимаем как очевидное, что фотографии могут быть отредактированы, и мы судим фотографии с немного большим скептицизмом», сказал он. «Мы понимаем, что есть журналистская ответственность, приложенная к фотографиям».
Он сказал, что то же самое обсуждение теперь происходит с цифровой звукозаписью. Редакторы долго были в состоянии изменить аудио файлы, чтобы очистить звуковую дорожку, и они могли изменить ее значение, например просто, удалив слово «нет». Но он сказал, что программы как VoCo, делая тот процесс легче, вероятно поставят вопросы.
«Этот инструмент будет почти наверняка питать разговор об аудио, которому предшествовал разговор о фотографиях», сказал Финкелштайн. «Достаточно скоро это будет сопровождаться разговором о видео».