Я знаю, нас всех отвлекло другое: в январе 2021 года OpenAIКомпания, основанная Илоном Маском и поддерживаемая Microsoft, запустила свой самый амбициозный проект на сегодняшний день: систему машинного обучения под названием DALL-E.
Что делает этот искусственный интеллект? Проще говоря: он создает изображения, начиная с простого текстового описания. Пример? Пишешь «Верблюд с книгой вместо шляпы» или «Галстук из вилок», а он рисует, творит, короче: придумывает образ.
Теперь Open AI представила вторую версию DALL-E, и все стало чертовски серьезно: разрешение стало намного лучше, а время производства намного меньше. Типичная экспоненциальная динамика, к которой искусственный интеллект нас приучил и, прежде всего, приучит. Еще и потому, что, если вы помните, глава Open AI только что сказал, что эти машины могут (может быть) они становятся разумными.
Немного Валл-И, немного Дали
Первая версия DALL-E (сумма от «Дали» в честь художника и «ВАЛЛ-И» в честь анимационного персонажа Диснея) могла генерировать изображения и объединять различные фотографии в коллаж, предлагая редактируемые перспективы и делая выводы. элементы изображения самостоятельно, например эффекты тени.
Суперхороший дизайнер, в распоряжении которого все изображения мира, который интерпретирует запросы и моментально рисует.
«В отличие от механизма 3D-рендеринга, который требует точного ввода, DALL-E часто способен «заполнять пробелы», когда в подписи явно не указано, что изображение должно включать определенный элемент», — написала команда в прошлом году. в блоге Open AI.
Как работает ИИ, работающий по требованию?
DALL-E не задумывался как коммерческий продукт, и команда OpenAI решила, что так будет к лучшему. Исследователи «не позволяли» ему создавать сексуальные или политические образы, например, чтобы не допустить использования системы для генерации дезинформации. То же самое касается и конкретных имен: у него невозможно попросить, например, «нарисовать Фрэнка Синатру, играющего в теннис с белым медведем».
По сути, DALL-E 1 использует преимущества замечательного интерпретатора языка GPT-3 (здесь я говорю об этом более подробно, если вам интересно) и рисует то, что понимает, плюс то, что «интуитивно догадывается».
В отличие от первой версии, которая была доступна всем на веб-сайте OpenAI, эта доступна для тестирования только ограниченному числу партнеров: я жду несколько дней ответа от Open AI, чтобы присоединиться к группе.