Алгоритмы искусственного интеллекта и машинного обучения становятся лучше при прогнозировании действий в видео.
Лучшие из современных алгоритмов могут довольно точно предсказать, куда пойдет бейсбол после его броска или появление дороги в следующей последовательности. Другими словами? Прогнозирование кадров в будущем фильма.
Новый подход, предложенный исследователями из Google, Мичиганского университета и Adobe, совершенствует современные технологии с помощью крупномасштабных моделей, которые создают высококачественное видео из нескольких кадров.
«В этом проекте мы стремимся получить точные прогнозы видео. Мы оптимизируем возможности нейронной сети», исследователи написали в документ который описывает их работу.
Модель команды
Основная модель команды основана на стохастической архитектуре генерации видео. с компонентом, который управляет предсказаниями кадров, следующих за рассмотренными.
Команда обучала и тестировала различные версии модели отдельно от пользовательских наборов данных на основе трех категорий прогноза: взаимодействия между объектами, структурированное движение и частичная наблюдаемость.
Для первого задания (взаимодействие с объектами) Исследователи выбрали 256 клипов из блока видеороликов, на которых показана рука робота во время взаимодействия с полотенцами.
Для второго (структурированное движение) они редактировали клипы из Human 3.6M, блок, содержащий клипы людей, выполняющих такие действия, как сидя на стуле.
Что касается третьего (частичная наблюдаемая активность), использовали набор данных KITTI для управления движением с открытым исходным кодом, собранный с видеокамер, установленных на приборной панели автомобиля
После такого «обучения» модель ИИ генерировала в дальнейшем до 25 кадров.
Исследователи сообщают, что оценщики отдавали предпочтение «предсказаниям» в 90,2, 98,7% и 99,3% случаев трем типам видео соответственно: взаимодействие объектов, структурированное движение и задачи частичной наблюдаемости соответственно.
Качественно команда отмечает, что ИИ четко представил человеческие руки и ноги и сделал «очень точные прогнозы, которые казались реалистичными по сравнению со сценами, изображенными на видео» .


«Мы обнаружили, что максимизация возможностей таких моделей улучшает качество прогнозирования видео», соавторы пишут. Мы надеемся, что наша работа побудит отрасль двигаться в том же направлении в будущем. Например, чтобы увидеть, как далеко мы можем зайти».