AudioLM, искусственный интеллект Google слушает фрагмент песни и дополняет его

Октябрь 8 2022

Технология

Новая система искусственного интеллекта способна создавать музыку (и слова) из звуков после прослушивания нескольких секунд аудио или песни.

АудиоLM, система, разработанная исследователями Google, генерирует всевозможные звуки, в том числе сложные, вроде фортепианной музыки в песне или разговора людей, практически неотличимые от исходного фрагмента, который ей подавался.

Метод действительно многообещающий и может быть полезен во многих отношениях. Например, он сможет ускорить процесс обучения искусственного интеллекта или автоматически генерировать музыку для сопровождения видеороликов. Но это нечто большее.

Сыграй еще раз, Сэм

Мы уже привыкли слышать звук, создаваемый искусственным интеллектом. Те, кто каждый день спорит с Alexa или Google Nest, хорошо это знают: наши голосовые помощники обрабатывают естественный язык.

Конечно, есть и системы, обученные музыке: помните проигрыватель-автомат через OpenAI? Я рассказал вам об этом здесь. Однако все эти системы основаны на длительном и сложном «обучении», которое включает в себя каталогизацию и управление множеством «сигналов». Наш искусственный интеллект жаден до данных и всегда хочет большего.

Следующий шаг — заставить ИИ «думать», дав ему возможность быстрее обрабатывать услышанную информацию, без необходимости длительного обучения. Нечто похожее на то, что мы пытаемся сделать с системами беспилотного вождения.

Как работает АудиоЛМ

Для генерации звука несколько секунд песни или звука передаются в AudioLM, который буквально предсказывает, что будет дальше. Это не Шазам, он не ищет всю песню и не воспроизводит ее заново. Он не делает коллажи из звуков, которые остались в его памяти. Он их строит. Процесс аналогичен тому, как я лингвистические модели подобно GPT-3 они предсказывают фразы и слова.

Аудиоклипы, выпущенные командой Google, звучат очень естественно. В частности, фортепианная музыка, создаваемая AudioLM, кажется более плавной, чем музыка, создаваемая современным искусственным интеллектом. Другими словами, он лучше улавливает то, как мы создаем песню или звук.

«Это действительно впечатляет, еще и потому, что это указывает на то, что эти системы изучают некую многоуровневую структуру», — говорит он. Роджер Данненберг, исследователь компьютерной музыки в Университете Карнеги-Меллона.

Песня или звук, ИИ воспроизводит все — AudioLM обрабатывает и предсказывает звуки беспрецедентными способами

Не просто песня

Представьте, что вы разговариваете с AudioLM, два слова и все. Система продолжит речь, изучая ваш темп, акцент, паузы и даже дыхание. В общем, именно в вашем стиле. Специальной подготовки не требуется: он может сделать это практически сам.

Как попугай, повторяющий то, что ты слышишь. Только это попугай, способный принимать и издавать любые звуки, а оставшиеся посередине автономно доделывать.

В итоге? Очень скоро у нас будут (и в данном случае это означает очень скоро) системы, способные говорить гораздо более естественно и сочинять песни или звучать точно так же, как Далл-Э 2, MidjourneyAI и другие создают изображения или Сделать видео создает клипы на основе нашего ввода.

Кому принадлежат права на песню?

Даже если эти системы будут способны создавать контент почти самостоятельно, это «почти» по-прежнему будет иметь решающее значение в мире и заставляет учитывать этические последствия этой технологии.

Если я скажу: «Сделай мне другую концовку для Bohemian Rhapsody», и эта штука создаст песню в этом духе, кто получит права и гонорары за эту песню? Не говоря уже о том, что звуки и речи, ныне неотличимые от человеческих, гораздо убедительнее и открывают невиданный ранее уровень распространения дезинформации.

В документе, опубликованном для представления этого ИИ (Я связываю это здесь), исследователи пишут, что они уже рассматривают, как смягчить эти проблемы, внедрив способы отличить естественные звуки от звуков, воспроизводимых с помощью AudioLM. мало верю. Многие из целей, для которых создавался этот ИИ, будут потеряны.

В более общем плане существует риск возникновения явления, которое я бы назвал «недоверием к реальности». Если все может быть правдой, ничего не может быть. Ничто не имеет ценности.

Мы пытаемся подготовить наш естественный интеллект к этим изменениям, одновременно думая о том, как искусственный интеллект может их произвести. Если мы этого не сделаем, у нас получится песня с очень горьким концом.

Джанлука Риччио, креативный директор Melancia adv, копирайтер и журналист. Он является частью Итальянского института будущего, Общества мирового будущего и H+. С 2006 года он руководит Futuroprossimo.it, итальянским футурологическим ресурсом.

Сообщать об исследованиях, открытиях и изобретениях, обращайтесь в редакцию! Следите за Футуро Проссимо в WhatsApp: эксклюзивные новости и обновления (бесплатно).

ФП на Фатто Котидиано
Альберто Робиати и Джанлука Риччио знакомят читателей со сценариями будущего: возможностями, рисками и возможностями, которые у нас есть, чтобы создать возможное будущее.

По той же теме:

Последний

AudioLM, искусственный интеллект Google слушает фрагмент песни и дополняет его

Технология

Поделиться

Сыграй еще раз, Сэм

Как работает АудиоЛМ

Не просто песня

Кому принадлежат права на песню?

Я отведу вас в будущее «автоматизированных» развлечений, генерируемых искусственным интеллектом.

Как ИИ раскроет потенциал учащихся с дислексией и СДВГ

Супермаркет Orwell: покупки с помощью распознавания лиц необходимо переосмыслить

Я отведу вас в будущее «автоматизированных» развлечений, генерируемых искусственным интеллектом.

К 2050 году 50% населения планеты будут носить очки: предупреждают эксперты

Хавелар, строительство будущего: печать за 18 часов, доставка за 6 недель

Как ИИ раскроет потенциал учащихся с дислексией и СДВГ

Овертуризм: платный вход в Венецию — это будущее городов искусства?