АудиоLM, система, разработанная исследователями Google, генерирует всевозможные звуки, в том числе сложные, вроде фортепианной музыки в песне или разговора людей, практически неотличимые от исходного фрагмента, который ей подавался.
Метод действительно многообещающий и может быть полезен во многих отношениях. Например, он сможет ускорить процесс обучения искусственного интеллекта или автоматически генерировать музыку для сопровождения видеороликов. Но это нечто большее.
Сыграй еще раз, Сэм
Мы уже привыкли слышать звук, создаваемый искусственным интеллектом. Те, кто каждый день спорит с Alexa или Google Nest, хорошо это знают: наши голосовые помощники обрабатывают естественный язык.
Конечно, есть и системы, обученные музыке: помните проигрыватель-автомат через OpenAI? Я рассказал вам об этом здесь. Однако все эти системы основаны на длительном и сложном «обучении», которое включает в себя каталогизацию и управление множеством «сигналов». Наш искусственный интеллект жаден до данных и всегда хочет большего.
Следующий шаг — заставить ИИ «думать», дав ему возможность быстрее обрабатывать услышанную информацию, без необходимости длительного обучения. Нечто похожее на то, что мы пытаемся сделать с системами беспилотного вождения.
Как работает АудиоЛМ
Для генерации звука несколько секунд песни или звука передаются в AudioLM, который буквально предсказывает, что будет дальше. Это не Шазам, он не ищет всю песню и не воспроизводит ее заново. Он не делает коллажи из звуков, которые остались в его памяти. Он их строит. Процесс аналогичен тому, как я лингвистические модели подобно GPT-3 они предсказывают фразы и слова.
Аудиоклипы, выпущенные командой Google, звучат очень естественно. В частности, фортепианная музыка, создаваемая AudioLM, кажется более плавной, чем музыка, создаваемая современным искусственным интеллектом. Другими словами, он лучше улавливает то, как мы создаем песню или звук.
«Это действительно впечатляет, еще и потому, что это указывает на то, что эти системы изучают некую многоуровневую структуру», — говорит он. Роджер Данненберг, исследователь компьютерной музыки в Университете Карнеги-Меллона.
Не просто песня
Представьте, что вы разговариваете с AudioLM, два слова и все. Система продолжит речь, изучая ваш темп, акцент, паузы и даже дыхание. В общем, именно в вашем стиле. Специальной подготовки не требуется: он может сделать это практически сам.
Как попугай, повторяющий то, что ты слышишь. Только это попугай, способный принимать и издавать любые звуки, а оставшиеся посередине автономно доделывать.
В итоге? Очень скоро у нас будут (и в данном случае это означает очень скоро) системы, способные говорить гораздо более естественно и сочинять песни или звучать точно так же, как Далл-Э 2, MidjourneyAI и другие создают изображения или Сделать видео создает клипы на основе нашего ввода.
Кому принадлежат права на песню?
Даже если эти системы будут способны создавать контент почти самостоятельно, это «почти» по-прежнему будет иметь решающее значение в мире и заставляет учитывать этические последствия этой технологии.
Если я скажу: «Сделай мне другую концовку для Bohemian Rhapsody», и эта штука создаст песню в этом духе, кто получит права и гонорары за эту песню? Не говоря уже о том, что звуки и речи, ныне неотличимые от человеческих, гораздо убедительнее и открывают невиданный ранее уровень распространения дезинформации.
В документе, опубликованном для представления этого ИИ (Я связываю это здесь), исследователи пишут, что они уже рассматривают, как смягчить эти проблемы, внедрив способы отличить естественные звуки от звуков, воспроизводимых с помощью AudioLM. мало верю. Многие из целей, для которых создавался этот ИИ, будут потеряны.
В более общем плане существует риск возникновения явления, которое я бы назвал «недоверием к реальности». Если все может быть правдой, ничего не может быть. Ничто не имеет ценности.