Алгоритмы искусственного интеллекта и машинного обучения становятся лучше при прогнозировании действий в видео.
Лучшие из современных алгоритмов могут довольно точно предсказать, куда пойдет бейсбол после его броска или появление дороги в следующей последовательности. Другими словами? Прогнозирование кадров в будущем фильма.
Новый подход, предложенный исследователями из Google, Мичиганского университета и Adobe, расширяет современный уровень техники с помощью крупномасштабных моделей, которые генерируют высококачественное видео всего из нескольких кадров.
«С помощью этого проекта мы стремимся получить точные видеопрогнозы. Будем оптимизировать возможности нейросети», исследователи написали в документ который описывает их работу.
Модель команды
Базовая модель команды основана на стохастической архитектуре генерации видео. с компонентом, который управляет предсказаниями кадров, следующих за рассмотренными.
Команда обучала и тестировала различные версии модели отдельно от пользовательских наборов данных на основе трех категорий прогноза: взаимодействия между объектами, структурированное движение и частичная наблюдаемость.
Для первого задания (взаимодействие с объектами) Исследователи выбрали 256 клипов из блока видеороликов, на которых показана рука робота во время взаимодействия с полотенцами.
Для второго (структурированное движение) они редактировали клипы из Human 3.6M, блок, содержащий клипы людей, выполняющих такие действия, как сидя на стуле.
Что касается третьего (частичная наблюдаемая активность), использовали набор данных KITTI для управления движением с открытым исходным кодом, собранный с видеокамер, установленных на приборной панели автомобиля
После такого «обучения» модель ИИ генерировала до 25 кадров в будущее.
Исследователи сообщают, что оценщики предпочитали «прогнозы» в 90,2%, 98,7% и 99,3% случаев трем типам видео: взаимодействия объектов, структурированное движение и задачи частичного наблюдения соответственно.
В качественном плане команда отмечает, что ИИ четко изобразил человеческие руки и ноги и готово. «очень точные предсказания, которые казались реалистичными по сравнению со сценами, изображенными на видео» .
«Мы обнаружили, что максимизация мощности таких моделей улучшает качество прогнозирования видео», соавторы пишут. Мы надеемся, что наша работа побудит эту область двигаться в том же направлении в будущем. Например, чтобы посмотреть, как далеко мы сможем зайти».