Вы знаете, искусственный интеллект — тема этих месяцев: он только что начал взрыв, который покажет нам все свои эффекты только в ближайшие несколько лет.
На парусах этой технологии есть и дыхание Microsoft: недавно она использовала ИИ для улучшения функциональности своих приложений, а теперь может инвестировать целых 10 миллиардов долларов в OpenAI, создателя ChatGPT. Но сегодня я узнал о другом проекте Microsoft, ВАЛЛ-Э, что невероятно.
Этот современный инструмент был обучен на огромном количестве речевых данных, более 60.000 XNUMX часов разговорного английского. Набор данных, который делает его, по словам компании Redmond, «в сотни раз больше, чем существующие системы». Включено более продвинутые.
А что ВАЛЛ-И научился делать? Ничего, пустяк. Он отлично воспроизводит и имитирует любой голос, прослушав его всего три секунды.

Голосовой репликатор?
Дело не только в этом. VALL-E — это настоящая революция в области вокального искусственного интеллекта. Потому что он с необычайной точностью воспроизводит эмоции, вокальные тона и акустическую среду, присутствующие в данном образце, и является гигантским скачком вперед по сравнению с существующими системами преобразования текста в речь (TTS). Другими словами, голос ВАЛЛ-И больше похож на голос человека, чем на голос искусственного интеллекта.
В его профиле Linkedin (посетить его), цифровой стратег Альберто Джакобоне ссылки на небольшую библиотеку вокальных сэмплов, созданных VALL-E положить онлайн на платформе GitHub. Результаты потрясающие: многие ролики идеально передают интонацию и акцент голосов дикторов.
Некоторые примеры менее убедительны, и это показывает, что ВАЛЛ-Э еще не законченный продукт. Однако общий вывод настолько убедителен, что просто поражает воображение.
Большие риски, большой потенциал
Понятно, что эта технология вызывает опасения по поводу потенциальных рисков неправомерного использования, таких как кража личных данных. VALL-E сможет создавать голосовые дипфейки, неотличимые от реальных людей, которые можно будет использовать для обмана людей во многих случаях и способами.
Для противодействия этой угрозе в презентационном документе VALL-E (Я связываю это здесь) Microsoft говорит, что работает над разработкой модели обнаружения, которая сможет отличить реальный голос от искусственного.
Однако, несмотря на (большие) риски, такие инструменты, как VALL-E, могут быть особенно полезны для помощи людям в восстановлении голоса после аварии, для легкого создания более естественных подкастов и аудиокниг и… как всегда, предел — это фантазия.