В яркой обстановке, полной мониторов и технологического оборудования, главным героем выступает робот. Его металлическая конструкция отражает свет, но именно в его «глазах» скрыто настоящее волшебство. Эти глаза, созданные на базе модели RT-2 компании DeepMind, способны видеть, интерпретировать и действовать.
Пока робот грациозно движется, ученые вокруг него внимательно изучают каждое его движение. Это не просто кусок металла и схемы, а воплощение интеллекта, объединяющего огромный мир Интернета с осязаемой реальностью.

Эволюция РТ-2
За последние годы робототехника прошла долгий путь, но DeepMind это просто подняло игру на совершенно новый уровень. Иллюстрированный в газете только что выпущенный он прибывает RT-2. Вещи? Это модель «видение-язык-действие» (VLA), которая учится не только на веб-данных, но и на данных роботов, переводя эти знания в обобщенные инструкции для управления роботами.
В эпоху, когда технологии развиваются семимильными шагами, RT-2 представляет собой значительный скачок, обещающий произвести революцию не только в области робототехники, но и в том, как мы живем и работаем каждый день. Но что это означает на практике?
DeepMind RT-2: от идеи к действию
Модели высокопроизводительный язык машинного зрения (VLM) они обучаются на больших наборах данных, и это также делает их необычайно хорошими в распознавании визуальных или языковых паттернов (работающих, например, на разных языках). Но представьте, что вы можете заставить роботов делать то, что делают эти модели. Действительно, перестаньте воображать: DeepMind делает это возможным с помощью RT-2.
Роботы-трансформеры 1 (РТ-1) это было чудо само по себе, но RT-2 идет дальше, демонстрируя расширенные возможности обобщения и семантическое и визуальное понимание, которые выходят за рамки роботизированных данных, которым он подвергался.
Цепочка рассуждений
Одним из самых захватывающих аспектов RT-2 является его способность к цепочке рассуждений. Он может решить, какой предмет можно использовать в качестве самодельного молотка или какой напиток лучше всего подходит для уставшего человека. Эта глубокая способность рассуждать может революционизировать то, как мы взаимодействуем с роботами.
И что хуже всего, вы все равно можете попросить робота приготовить вам хороший кофе, чтобы вернуть себе ясность ума.
Но как DeepMind RT-2 управляет роботом?
Ответ заключается в том, как он был обучен. Фактически, он использует представление, мало чем отличающееся от языковых токенов, которые используются такими шаблонами, как ChatGPT.
RT-2 продемонстрировал удивительные эмерджентные способности, такие как понимание символов, рассуждение и распознавание человека. Навыки, которые в настоящее время показывают улучшение более чем в 3 раза по сравнению с предыдущими моделями.
С РТ-2, DeepMind не только показал, что модели языка видения могут быть преобразованы в мощные модели языка видения и действия, но и открыл дверь в будущее, в котором роботы могут рассуждать, решать проблемы и интерпретировать информацию для выполнения широкого круга задач в реальном мире. мир.
И сейчас?
В мире, где искусственный интеллект и робототехника будут играть все более важную роль, RT-2 показывает нам, что следующая эволюция будет не чисто технической, а «перцептивной». Машины будут понимать наши потребности и реагировать на них так, как мы даже представить себе не могли.
Если это только начало, кто знает, что нас ждет в будущем.