Новый сервис Lyrebird для имитации любого голоса на базе одной минуты речи

Канадский стартап Lyrebird представил нейросетевой сервис для имитации речи, использующий для обучения одну минуту аудиозаписи с оригинальным голосом.

Из многих классических фильмов, которые привносят в себя хорошую технологию, можно вспомнить "Sneakers" («Кроссовки») и система управления вводом «Мой голос - мой пароль, проверьте меня». Для копирования этого голоса для входа в безопасную зону требуется скрытый аудиорекордер и дата подделки голоса. Этому фильму уже исполнилось 25 лет, а технология синтеза речи просто лишила смысла голосовые пароли.

Lyrebird - это новое поколение технологии синтеза речи, разработанное в лаборатории Монреальского института изучения алгоритмов (MILA) в Монреальском университете. Алгоритмы для имитации речи создавались и ранее, однако нейросетям, как правило, требуется довольно большое количество материала (записей оригинального голоса), чтобы научиться ее воспроизводить.

Монреальскому проекту Lyrebird удалось сократить необходимое для обучения программы время до минуты. Созданный алгоритм, в частности, позволяет за полсекунды обработать до тысячи предложений, которые программа «скажет» нужным голосом и с нужной пользователю интонацией.

В данный момент синтезированные Lyrebird голоса звучат немного электронно, однако в случае знаменитостей позволяют безошибочно определить, кому они принадлежат.

Сроки релиза продукта не сообщаются. Также остается неясным, будет ли сервис полностью бесплатным. На сайте проекта в данный момент говорится о том, что Lyrebird планирует выпустить API для работы с алгоритмом, и приглашает пользователей стать бета-тестерами через подписку на email-рассылку.

На сайте компании можно услышать различные варианты имитации голоса Дональда Трампа и Барак Обамы.