Знаете, искусственный интеллект является темой этих месяцев: он только начал свой взрыв, последствия которого проявятся только в ближайшие несколько лет.
Microsoft также стоит за развитием этой технологии: недавно она использовала искусственный интеллект для улучшения функциональности своих приложений, а теперь может инвестировать до 10 миллиардов долларов в OpenAI, компанию, создавшую ChatGPT. Однако сегодня я услышал о другом проекте Microsoft, ВАЛЛ-Э, что невероятно.
Этот передовой инструмент был обучен на огромном объеме голосовых данных, более 60.000 XNUMX часов разговорного английского языка. Набор данных, который делает его, по словам компании из Редмонда, «в сотни раз больше, чем существующие системы». Включено более продвинутые.
А что ВАЛЛ-И научился делать? Ничего, пустяк. Он отлично воспроизводит и имитирует любой голос, прослушав его всего три секунды.
Голосовой репликатор?
Дело не только в этом. VALL-E — это настоящая революция в области голосового искусственного интеллекта. Потому что он с необычайной точностью воспроизводит эмоции, голосовые тона и акустическую среду, присутствующие в данном сэмпле, и является гигантским шагом вперед по сравнению с существующими системами преобразования текста в речь (TTS). Другими словами, голос ВАЛЛ-И больше похож на голос человека, чем на голос искусственного интеллекта.
В его профиле Linkedin (посетить его), цифровой стратег Альберто Джакобоне ссылки на небольшую библиотеку вокальных сэмплов, созданных VALL-E положить онлайн на платформе GitHub. Результаты удивляют: во многих клипах прекрасно воспроизводятся интонации и акценты голосов говорящих.
Некоторые примеры менее убедительны, и это показывает, что ВАЛЛ-И еще не законченный продукт. Однако общий результат настолько убедителен, что лишает нас дара речи.
Большие риски, большой потенциал
Понятно, что эта технология вызывает опасения по поводу потенциальных рисков неправомерного использования, таких как кража личных данных. VALL-E сможет создавать голосовые дипфейки, неотличимые от реальных людей, которые можно будет использовать для обмана людей во многих случаях и способами.
Для противодействия этой угрозе в презентационном документе VALL-E (Я связываю это здесь) Microsoft говорит, что работает над разработкой модели обнаружения, которая сможет отличить реальный голос от искусственного.
Однако, несмотря на (большие) риски, такие инструменты, как VALL-E, могут быть особенно полезны, чтобы помочь людям обрести свой голос после несчастного случая, легко создавать более естественные подкасты и аудиокниги и… как всегда, пределом является ваше воображение.