Вы можете себе представить серого кота? Хороший. А теперь представьте его с белым мехом. А теперь представьте, что он идет по Великой Китайской стене. Сделанный? Здесь, в эти моменты, серия быстрых нейронных активаций в вашем мозгу произвела вариации представленного изображения, основанные на ваших предыдущих знаниях о мире.
Легко представить, для нас, людей. Однако для искусственного интеллекта это совсем другая история. Несмотря на достижения в области нейронных сетей, которые в некоторых видах деятельности не уступают человеческим или превосходят их, компьютеры по-прежнему далеки от способности человека воображать вещи.
Представить? Невозможно для ИИ. По крайней мере, до вчерашнего дня.
Теперь исследовательская группа USC разработала искусственный интеллект, который использует человеческие способности, чтобы представить невиданный ранее объект с различными атрибутами. Документ, озаглавленный «Синтез Zero Shot с групповым обучением», был выпущен в мае, и с тех пор побочные исследования процветают.
«Мы были вдохновлены человеческими навыками визуального обобщения, чтобы попытаться имитировать человеческое воображение в машинах», — говорит ведущий автор исследования. Юньхао Гэ. «Люди могут разделять свои полученные знания по атрибутам, таким как форма, поза, положение, цвет, а затем рекомбинировать их, чтобы представить новый объект. В нашей статье мы пытаемся смоделировать этот процесс с помощью нейронных сетей».

Проблема обобщения искусственного интеллекта
Предположим, мы хотим создать систему искусственного интеллекта, генерирующую изображения автомобилей. Сначала мы обеспечиваем алгоритм некоторыми изображениями автомобиля. Задача будет состоять в том, чтобы сгенерировать множество типов автомобилей любого цвета с разных ракурсов. Это серьезный вызов: создавать нейронные сети, способные извлекать базовые правила и применять их к широкому кругу новых примеров, которых раньше не было. Но сегодня сети обучаются на выборочных характеристиках, без учета атрибутов объекта.
В этом новом исследовании исследователи попытались преодолеть это ограничение.
Секрет? Это называется распутывание

Работа исследовательской группы была основана на применении метода, называемого распутыванием. Распутывание можно использовать для создания deepfake, например, синтез новых изображений и видео, которые заменяют личность одного человека другим человеком, но сохраняют исходное движение.
Новый подход использует группу образцов изображений, а не один образец за раз, как традиционные алгоритмы. Dd извлекает сходство между ними, чтобы достичь так называемого «контролируемого обучения распутанному представлению».
Затем он рекомбинирует эти знания, чтобы получить «новый управляемый синтез изображений». Мы могли бы использовать глагол «вообразить».
Это очень похоже на то, как мы, люди, экстраполируем: когда человек видит цвет объекта, мы можем легко применить его к любому другому объекту, заменив исходный цвет новым. Используя технику распутывания, команда создала новый набор данных, содержащий 1,56 миллиона изображений, которые могут помочь будущим исследованиям в этой области.
Воображение помогает понять мир
Хотя распутывание не является новой идеей, исследователи говорят, что их структура может быть совместима практически с любым типом данных или знаний. Это расширяет возможности приложений.
В области медицины, например, распутывание может помочь врачам и биологам открывать более полезные лекарства, отделяя медицинские функции от других свойств, а затем рекомбинируя их для синтеза нового лекарства. Заставить машины «воображать» также может помочь создать более безопасный искусственный интеллект. Например, позволяя автономным транспортным средствам воображать и избегать опасных сценариев, которых раньше не было, во время обучения.
«Глубокое обучение уже продемонстрировало непревзойденную производительность и перспективность во многих областях. Однако слишком часто это происходило благодаря поверхностному подражанию и без более глубокого понимания отдельных атрибутов, которые делают каждый объект уникальным», — сказал Лоран Итти, профессор информатики. «Этот новый подход к распутыванию впервые действительно раскрывает новое чувство воображения в системах ИИ, приближая их к человеческому пониманию мира».