АRMARIO.by - Шкафы купе в Минске
    Собственное производство, низкие цены.

Город: 8 (017) 315-91-86

Velcom: 8 (029) 668-40-66


Mтс: 8 (029) 775-75-66

E-mail: info@armario.by



Шкафы купе в Минске » Искусственный интеллект научился имитировать голос человека на основе трехсекундной аудио записи

Меню:



Фотокаталог:





Искусственный интеллект научился имитировать голос человека на основе трехсекундной аудио записи


Искусственный интеллект научился имитировать голос человека на основе трехсекундной аудио записиКитайский интернет-гигант – компания Baidu совершила прорыв в технологии компьютерной имитации человеческого голоса. Программа Deep Voice, работающая на основе нейронных сетей способна клонировать голос любого человека на основании всего 3 секундного семпла.


 


 

Еще год назад прежней версии программы было необходимо около 30 минут оригинального аудиоматериала для создания имитации голоса. Сегодня разработчикам удалось ускорить технологию в 10 раз благодаря так называемым алгоритмам глубокого обучения. Система может изменить женский голос на мужской, а британский акцент на американский, тем самым демонстрируя, что искусственный интеллект может научиться имитировать различные стили речи. Преобразование текста в речь выходит на новый уровень, и становиться в высшей степени персонализированным.


 

Подобные технологии работают по принципу искусственных нейронных сетей. Суть глубокого обучения состоит в том, что программа сама должна «понять» как ей обучиться выполнять задачу наилучшим образом. Компьютер без помощи человека выявляет ключевые признаки (например, особенности голоса), классифицирует их, разрабатывает алгоритм в отношении того как более простые характеристики голоса складываются в такие сложные свойства как тембр, темп и даже акцент.


 

Задачу имитации человеческого голоса пытаются решить такие компьютерные гиганты как Adobe, а также небольшие стартапы, например, Lyrebird. Однако все они к текущему моменту не обладают настолько быстрой технологией генерации голоса как китайский Baidu.


 

Потенциальные сферы применения нейронных сетей, относительно точно имитирующих голос человека чрезвычайно широки. От медицинских технологий (создание голосовых протезов для людей, утративших возможность говорить), до сферы развлечений (киноиндустрия, голосовые помощники).


 

Возможное негативное влияние развития нейросетей подобных Deep Voice заключается в потенциальном злоупотреблении ими в мошеннических целях. Даже сегодняшняя несовершенная версия программы смогла создать настолько похожую имитацию голоса конкретного человека, что система распознавания голоса опознала подмену только в 5% случаев. Людям еще хуже удается определить, где реальный голос, а где его имитация.


 

В мире уже существуют подделки, созданные искусственным интеллектом, способным к глубокому обучению. Нейросеть Nvidia может создавать поразительно реалистичные изображения людей, которые даже не существуют или поменять лицо на любой фотографии или видео. Сегодня клонированный голос звучит еще немного роботизировано, но прогресс в этой области идет невероятно быстро. Через некоторое время мы будем жить в мире, в котором можно услышать голоса Курта Кобейна или Джона Леннона, поющих новые песни. Но не все так безоблачно, перед человечеством встанет проблема различения правдивого фото, аудио и видеоматериала в потоке компьютерных подделок.