Microsoft VALL-E — новая ИИ-модель, способная адаптироваться к голосу по образцу, длительностью в 3 секунды

Искусственный интеллект

Исследователи компании Microsoft представили одну из своих последних разработок, модель искусственного интеллекта (ИИ) под названием VALL-E, которая предназначена для преобразования текста в живую речь. Отметим, что это не первая модель такого рода, но если алгоритму Lyrebird 2017, к примеру, разработанному в университете Монреаля, требовалась целая минута записи для анализа, то модели VALL-E достаточно всего трех секунд, после чего она начинает подражать речи конкретного человека, включая акустическую окраску и эмоциональный тон.

Модель VALL-E была натренирована на 60 тысячах часах записи речи на английском языке, главным образом на аудиокнигах, начитанных разными людьми. Это дало свой результат, модель воспроизводит предложения, звучащие совершенно естественно. Единственным недостатком модели является то, что модель дает сбои в звучании, когда в предложениях встречаются странные места с точки зрения синтаксиса или пунктуации.

Модели VALL-E также дается очень хорошо воссоздание условий аудиосреды исходного образца. Если этот образец, к примеру, был записан с телефона, то и вся дальнейшая синтезированная речь будет «как из телефона». Также модель способна воспроизводить тонкости речи, похожие образцы, записанные американцем или британцем, дадут совершенно различные результаты.

Также модель VALL-E способна придавать речи эмоциональный окрас. Только для этого ей необходимо предоставить несколько образцов речи, помеченных, как сердитый, сонный, удивленный, чувствующий отвращение и т.п. Чем больше таких образцов будет предоставлено, тем более эмоциональной и естественной становится синтезированная речь.

Последствия появления таких технологий весьма ясны. С положительной стороны, вы можете получить озвученный голосом известного актера список покупок, находясь в супермаркете, или ваш телефон будет начитывать аудиокнигу подходящим для ее содержимого голосом, или даже несколькими голосами.

Но с отрицательной стороны все выглядит намного ужасней. Представьте себе мошенника, получившего образец вашего голоса, который потом звонит вашим ближним родственникам. Также при помощи данной технологии возможен обход систем голосовой идентификации, а фальсифицированная запись выступления какого-либо известного политика может вызвать сокрушительный крах его карьеры.

И в заключении следует отметить, что все мы в последнее время видим, что системы искусственного интеллекта типа DALL-E, ChatGPT и другие deepfake-технологии начинают перемещаться из лабораторий в реальный мир. И эти изменения, как обычно, приносят одновременно массу новых возможностей и новых рисков. Но, надо надеяться, что упомянутые выше риски не столь значимы, как говорится, клин клином вышибают, и распознать фальсифицированную речь сможет подобная и специально натренированная модель искусственного интеллекта.

Ключевые слова:
Microsoft, VALL-E, Искусственный, Интеллект, Модель, Речь, Синтез, Образец, Эмоции

Первоисточник

Другие новости по теме:

  • Машины-монстры: 5-метровая радиоуправляемая модель авиалайнера Airbus A-320
  • Ученые работают над созданием первой трехмерной модели живой клетки
  • Новая технология позволяет воссоздать трехмерный «фоторобот» человека по его генетическому коду
  • Машины-монстры: Metropolis II — модель современного города, по улицам которого движется 100000 автомобилей в час.
  • Программа SimPortland компании IBM — математическая симуляция реального города.
  • Share Button

    Материалы по теме:

    Самый мощный в мире суперкомпьютер произвел самое масштабное моделирование процессов взаимодействия света и материи
    Процессы взаимодействия света с материей лежат в основе массы современных технологий, на них основана работа лазеров, светодиодов, других оптоэлектронных устройств и даже атомных часов. ...
    Система искусственного интеллекта разнесла в пух и прах суперкомпьютер на задаче масштабного моделирования
    В свое время мы рассказывали нашим читателям о компании Cerebras Systems, которая прославилась созданием самого большого в мире процессора, предназначенного для мощных систем искусственного ...
    Andromeda AI — суперкомпьютер для искусственного интеллекта, собранный на самых больших чипах на сегодняшний день
    На днях представители компании Cerebras Systems анонсировали свой суперкомпьютер под названием Andromeda AI, имеющий в своем составе 13.5 миллионов вычислительных ядер, и предназначенный для ...
    Ученые извлекли квадратный корень из 900 при помощи «компьютера» на основе синтетической ДНК
    При помощи биологической "компьютерной" системы, основой которой является специально спроектированная синтетическая ДНК, ученым удалось извлечь квадратный корень из числа 900. Отметим, что идея использования ...
    Ученые создали первое в своем роде молекулярное вычислительное устройство типа «конечный автомат»
    Группа исследователей из Манчестерского университета разработала технологию, позволяющую создавать молекулярные вычислительные устройства типа "конечный автомат", предназначенные для выполнения определенного вида обработки поступающих данных. Напомним ...
    You can skip to the end and leave a response. Pinging is currently not allowed.

    Leave a Reply

    Яндекс.Метрика