Вы можете себе представить серого кота? Хорошо. А теперь представьте его с белым мехом. Теперь представьте, что он идет по Великой Китайской стене. Сделанный? Здесь, в эти моменты, серия быстрых нейронных активаций в вашем мозгу вызвала изменения в представленном изображении, основанные на ваших предыдущих знаниях о мире.
Легко представить нам, людям. Однако с искусственным интеллектом дело обстоит совсем иначе. Несмотря на достижения в области нейронных сетей, которые соответствуют или превосходят возможности человека при выполнении определенных задач, компьютеры все еще далеки от способности человека воображать вещи.
Представить? Невозможно для ИИ. По крайней мере, до вчерашнего дня.
Теперь исследовательская группа Университета Южной Калифорнии разработала искусственный интеллект, который использует человеческие способности, чтобы представить ранее невиданный объект с различными атрибутами. Статья под названием «Синтез с нулевым выстрелом с обучением под контролем группы» был выпущен в мае, и с тех пор побочные исследования процветают.
«Мы были вдохновлены возможностями человеческого визуального обобщения, чтобы попытаться смоделировать человеческое воображение с помощью машин», — говорит ведущий автор исследования. Юньхао Гэ. «Люди могут разделять полученные знания по атрибутам, например форме, позе, положению, цвету, а затем рекомбинировать их, чтобы представить себе новый объект. Наша статья пытается смоделировать этот процесс с помощью нейронных сетей».
Проблема обобщения искусственного интеллекта
Предположим, мы хотим создать систему искусственного интеллекта, генерирующую изображения автомобилей. Вначале мы обеспечиваем алгоритм несколькими изображениями автомобиля. Задача заключалась в том, чтобы создать множество типов автомобилей любого цвета и с разных ракурсов. Это серьезный вызов: создавать нейронные сети, способные извлекать базовые правила и применять их к широкому кругу новых примеров, которых раньше не было. Но сегодня сети обучаются на выборочных характеристиках, без учета атрибутов объекта.
В этом новом исследовании исследователи попытались преодолеть это ограничение.
Секрет? Это называется распутывание
Работа исследовательской группы была основана на применении метода, называемого распутыванием. Распутывание можно использовать для создания deepfake, например, синтезируя новые изображения и видео, которые заменяют личность одного человека другим человеком, но сохраняют исходное движение.
Новый подход использует группу образцов изображений, а не один образец за раз, как традиционные алгоритмы. Dd извлекает сходство между ними, чтобы достичь того, что называется «обучением управляемому распутанному представлению».
Затем он рекомбинирует эти знания для получения «нового управляемого синтеза изображений». Мы могли бы использовать глагол «представить».
Это очень похоже на то, как мы, люди, экстраполируем: когда человек видит цвет объекта, мы можем легко применить его к любому другому объекту, заменив исходный цвет новым. Используя технику распутывания, команда создала новый набор данных, содержащий 1,56 миллиона изображений, которые могут помочь будущим исследованиям в этой области.
Воображение помогает понять мир
Хотя распутывание не является новой идеей, исследователи говорят, что их структура может быть совместима практически с любым типом данных или знаний. Это расширяет возможности применения.
Например, в области медицины распутывание может помочь врачам и биологам открыть более полезные лекарства, отделив медицинскую функцию от других свойств, а затем рекомбинируя их для синтеза нового лекарства. Заставить машины «воображать» также может помочь создать более безопасный искусственный интеллект. Например, позволяя беспилотным транспортным средствам представлять и избегать опасных сценариев, никогда ранее не встречавшихся во время обучения.
«Глубокое обучение уже продемонстрировало непревзойденную эффективность и перспективность во многих областях. Однако слишком часто это происходило посредством поверхностной мимикрии и без более глубокого понимания отдельных атрибутов, которые делают каждый объект уникальным», — сказал Лоран Итти, профессор компьютерных наук. «Этот новый подход к распутыванию впервые по-настоящему раскрывает новое чувство воображения в системах искусственного интеллекта, приближая их к человеческому пониманию мира».