Voice Engine, OpenAI клонирует голос всего за 15 секунд звука

Март 30 2024

Технология

Перевод вашего собственного голоса, передача речи пациентам, создание аудиокниг с выразительными голосами: вот некоторые из возможностей голосового движка OpenAI. Но путь к широкомасштабному внедрению лежит через этическое и нормативное размышление над синтетическими голосами.

«Это мой голос. Или, по крайней мере, так оно и было. Теперь оно также принадлежит алгоритму, который может заставить меня сказать то, чего я никогда не говорил».. Начало научно-фантастического романа? Нет. Сценарий, который вырисовывается с распространением синтетических слухов. Технологии, способные клонировать наши голоса, начиная с нескольких аудиосэмплов, таких как Голосовой движок от OpenAI. Амбициозный проект, только что представленный, который обещает произвести революцию в таких областях, как развлечения, образование и здравоохранение. Но это также поднимает тревожные вопросы о контроле над нашей личностью в эпоху искусственного интеллекта.

Презентация Voice Engine в официальном блоге от OpenAI.

Украденные голоса в цифровом эфире

В будущем твой голос больше не будет принадлежать тебе. Это будет мир, в котором каждый сможет с помощью нескольких щелчков мыши заставить вас сказать что угодно. Фразы никогда не произносились, мнения никогда не высказывались, секреты никогда не раскрывались. Кошмар-антиутопия, который появляется на горизонте с появлением синтетических голосов.

Имейте в виду, возможность генерировать искусственные голоса в этом нет ничего нового. На протяжении десятилетий существовало программное обеспечение, способное преобразовывать текст в речь с более или менее механическими и неприятными результатами. Но новые возможности ИИ обещают изменить правила игры. Все более сложные алгоритмы, основанные на огромных наборах данных и нейронных сетях, учатся имитировать тонкие нюансы человеческой речи, приближаясь к совершенству. Тембр, интонация, ритм, паузы: все элементы, делающие голос уникальным и узнаваемым, теперь доступны машинам.

Голосовой движок от OpenAI является последним воплощением этой тенденции. Модель способен генерировать реалистичные и естественные голоса, начиная с очень короткого аудиосэмпла продолжительностью всего 15 секунд. Маленькое чудо (или небольшой ужас, в зависимости от вашей точки зрения), открывающее сценарии, которые до недавнего времени считались научной фантастикой.

Voice Engine: вокальные симфонии или искусственная какофония?

Потенциальные области применения многочисленны и интересны. Подумайте об индустрии развлечений: Благодаря синтетическим голосам актеры могли озвучивать персонажей анимационных фильмов или видеоигр, не проводя часы в студии звукозаписи. Актеры озвучивания могут работать на незнакомых им языках, полагаясь на машинный перевод. Аудиокниги можно озвучивать выразительными и привлекательными голосами, отражающими различные акценты и стили.

А что насчет здравоохранения? Благодаря таким инструментам, как Voice Engine, пациенты, страдающие от проблем с речью или фонацией, могут обрести естественный и персонализированный голос. Тем, кто слеп или имеет трудности с чтением, будет легче получить доступ к текстовому контенту, преобразованному в аудио. Языковые барьеры могут быть преодолены с помощью голосовых помощников, способных свободно говорить на любом языке.

Не говоря уже об образовательном потенциале: изучайте иностранный язык, говоря синтетическим, но реалистичным голосом, получайте корректирующую обратную связь от виртуального репетитора своим собственным голосом, создавайте настраиваемый многоязычный образовательный контент. Возможности безграничны и заманчивы.

Но у каждой медали есть обратная сторона.

Вокальные идентичности в эпоху дипфейков

Первый и наиболее очевидный риск — это дезинформация и манипуляции. С помощью таких инструментов, как Voice Engine для аудио и Сора за видео, любой может создать фальшивые, но заслуживающие доверия видеоролики с участием общественных деятелей или частных лиц. Фальшивые политические речи, вымышленные заявления, вымогательства признаний: фейковые новости найдут грозного союзника в синтетических голосах. В эпоху, уже отмеченную недоверием к средствам массовой информации и институтам, перспектива того, что мы больше не сможем доверять даже тому, что слышим собственными ушами, пугает.

Кроме того, существует проблема конфиденциальности и контроля над своими биометрическими данными. Наш голос — отличительная черта нашей личности, как отпечатки пальцев или сетчатка глаза. Но в отличие от других биометрических данных, их относительно легко собрать и воспроизвести без нашего ведома. Нескольких секунд украденной записи, например, телефонного звонка или общедоступного видео, достаточно, чтобы передать информацию такому алгоритму, как Voice Engine. И вуаля, наш голос больше не наш. Его можно использовать, злоупотреблять, деконтекстуализировать, и мы не сможем ничего сделать, чтобы предотвратить это.

Имейте в виду, OpenAI осознает эти риски и старается подходить к ним ответственно. Партнеры, тестирующие Voice Engine, должны придерживаться строгих этических принципов: нет имитации реальных людей без согласия, да явное разрешение от доноров голоса, максимальная прозрачность в отношении искусственной природы синтетических голосов. Это шаги в правильном направлении, но они не решают корень проблемы.

Потому что проблема, в конечном счете, является философской еще до того, как стать технологической. Это касается наших отношений с голосом как выражением себя, как признаком подлинности во все более опосредованном и искусственном мире. Речь идет о ценности, которую мы придаем индивидуальной уникальности и автономии, и о страхе увидеть, как они растворяются в размытом море дипфейков и изменчивых идентичностей.

Voice Engine: есть ли у будущего (еще) голос?

Столкнувшись с этими вопросами, луддиты могут отказаться от искушения.: заглушать синтетические голоса, рассматривать их как «извращенную» технологию, искать убежище в предполагаемой чистоте «естественных» голосов. Но это была бы недальновидная и контрпродуктивная реакция. Синтетические голоса, как и любая технология, сами по себе не хороши и не плохи: все зависит от того, как мы их используем.

Таким образом, задача состоит в том, чтобы создать этическую и нормативную базу, которая направляла бы развитие на общее благо. Определите общие стандарты и протоколы для получения и использования голосовых данных. Повысить осведомленность граждан о рисках и возможностях синтетических голосов, предоставив им важнейшие инструменты для ориентации. Инвестируйте в исследования надежных методов аутентификации голосов и отслеживания происхождения аудиоконтента. Содействовать открытым и информированным общественным дебатам по этим вопросам с участием всех заинтересованных сторон.

Это будет непростое и короткое путешествие. Это потребует дальновидности, решимости и духа сотрудничества. Но это необходимый путь, потому что на кону здесь стоят не только технологии. Это экзистенциально. Речь идет о самом значении нашей индивидуальности в мире, в котором границы между реальным и виртуальным, между подлинным и искусственным становятся все более размытыми и проницаемыми.

Мир, в котором наш голос, звуковое зеркало нашей души, рискует затеряться в водовороте синтетического эха.

Джанлука Риччио, креативный директор Melancia adv, копирайтер и журналист. Он является частью Итальянского института будущего, Общества мирового будущего и H+. С 2006 года он руководит Futuroprossimo.it, итальянским футурологическим ресурсом.

Сообщать об исследованиях, открытиях и изобретениях, обращайтесь в редакцию! Следите за Футуро Проссимо в WhatsApp: эксклюзивные новости и обновления (бесплатно).