АудиоLM, система, разработанная исследователями Google, генерирует всевозможные звуки, в том числе сложные, вроде фортепианной музыки в песне или разговора людей, практически неотличимые от исходного фрагмента, который ей подавался.
Метод очень многообещающий, и он может быть полезен во многих отношениях. Например, он может ускорить процесс обучения ИИ или автоматически генерировать музыку для сопровождения видео. Но это гораздо больше.
Сыграй еще раз, Сэм
Мы уже привыкли слышать звук, генерируемый искусственным интеллектом. Любой, кто каждый день борется с Alexa или Google Nest, хорошо это знает: наши голосовые помощники обрабатывают естественный язык.
Конечно, есть и системы, обученные музыке: помните проигрыватель-автомат через OpenAI? Я рассказал вам об этом здесь. Однако все эти системы основаны на длительном и сложном «обучении», которое включает в себя каталогизацию и администрирование многих «идей». Наш искусственный интеллект жаждет данных, и им нужно все больше и больше.
Следующий шаг — заставить ИИ «думать», позволив ему быстрее обрабатывать информацию, которую он слушает, без необходимости длительного обучения. Что-то похожее на то, что вы пытаетесь сделать с системами автономного вождения.
Как работает АудиоЛМ
Для создания звука несколько секунд песни или звука подаются в AudioLM, который буквально предсказывает, что будет дальше. Это не Shazam, он не ищет весь кусок целиком и предлагает его заново. Он не составляет коллаж из звуков, которые у него в памяти. Он их строит. Процесс аналогичен тому, как я лингвистические модели подобно GPT-3 они предсказывают фразы и слова.
Аудиоклипы, выпущенные командой Google, звучат очень естественно. В частности, фортепианная музыка, создаваемая AudioLM, кажется более плавной, чем музыка, создаваемая современным искусственным интеллектом. Другими словами, он лучше улавливает то, как мы создаем песню или звук.
«Это действительно впечатляет, не в последнюю очередь потому, что это указывает на то, что эти системы изучают некую многоуровневую структуру», — говорит он. Роджер Данненберг, исследователь компьютерной музыки в Университете Карнеги-Меллона.

Не просто песня
Представьте, что вы говорите с AudioLM, два слова и стоп. Система продолжит речь, изучая ваш ритм, ваш акцент, ваши паузы и даже ваше дыхание. Короче говоря, именно так, как вы говорите. Специальной подготовки не требуется: он может делать это практически сам.
Как попугай, повторяющий то, что ты слышишь. Только это попугай, способный принимать и издавать любые звуки, а оставшиеся посередине автономно доделывать.
В итоге? Очень скоро у нас будут (и в данном случае это означает очень скоро) системы, способные говорить гораздо более естественно и сочинять песни или звучать точно так же, как Далл-Э 2, MidjourneyAI и другие создают изображения или Сделать видео создает клипы на основе нашего ввода.
Кому принадлежат права на песню?
Хотя эти системы смогут создавать контент почти сами по себе, это «почти» по-прежнему имеет большое значение в мире и заставляет учитывать этические последствия этой технологии.
Если я скажу: «Итак, сделайте мне другое окончание Богемской рапсодии», и эта штука собирается написать песню в том же духе, кто может претендовать на права и собирать гонорары за песню? Не говоря уже о том, что звуки и речи, ныне неотличимые от человеческих, гораздо более убедительны и открыты для беспрецедентного распространения дезинформации.
В документе, опубликованном для представления этого ИИ (Я связываю это здесь), исследователи пишут, что они уже рассматривают, как смягчить эти проблемы, внедрив способы отличить естественные звуки от звуков, воспроизводимых с помощью AudioLM. мало верю. Многие из целей, для которых создавался этот ИИ, будут потеряны.
В более общем смысле риск состоит в том, чтобы вызвать феномен, который я бы назвал «недоверием к реальности». Если все может быть правдой, ничего не может быть. Ничто не имеет ценности.