Вы когда-нибудь задумывались, сколько фотографий нужно, чтобы воссоздать реалистичную виртуальную среду? Еще некоторое время назад ответ был «сотни». Сегодня, благодаря технологии 3D-видео и системе под названием РеконХ, достаточно двух. Выдающийся результат стал возможен благодаря искусственному интеллекту и моделям диффузии, которые открывают новые горизонты в создании виртуальных миров, начиная с нескольких фотографий.
Задача 3D-реконструкции
Реконструкция трехмерных сцен из двухмерных изображений всегда была довольно сложной задачей для компьютерного зрения. Традиционно для получения приемлемых результатов требовались сотни фотографий с разных ракурсов. Это долгий и трудоемкий процесс, который серьезно ограничил практическое применение этой технологии.
Исследовательские группы г. Университет Цинхуа и HKUST они подошли к этой проблеме с совершенно новым подходом. Вместо того, чтобы пытаться напрямую извлечь трехмерную информацию из нескольких изображений, они переосмыслили этот процесс как задачу временной генерации.
«Главное — использовать мощную генеративную модель предварительно обученных видео для реконструкции из разреженных изображений», — объясняют исследователи в своем исследовании. Я связываю статью здесь, если вы хотите углубиться в это.
Как работает ReconX
Системы работает в три отдельные фазы. первоначально, начиная как минимум с двух изображений, строит глобальное «облако точек», которое представляет базовую структуру сцены. Затем это кодируется в контекстуальном пространстве, которое служит трехмерным структурным состоянием.
Руководствуясь этой информацией, модель распространение видео синтезирует кадры, которые сохраняют детали и демонстрируют высокую степень трехмерной последовательности.
В результате получается видеоряд, показывающий сцену под разными углами, сохраняя целостность перспективы.
Последний этап включает в себя восстановление фактического 3D-видео из кадров, созданных с помощью процесса оптимизации, называемого «3D гауссово пятно«. Этот метод позволяет получить детальное и реалистичное трехмерное изображение.
3D-видео из двух изображений: потрясающие результаты
Тесты, проведенные на нескольких реальных наборах данных, продемонстрировали превосходство ReconX над всеми существующими подходами. Система производит более точные реконструкции, а также демонстрирует отличную способность к обобщению ранее невиданных сцен.
Особенно впечатляет способность справляться с ситуациями с большими изменениями угла обзора. Там, где другие системы демонстрируют очевидные артефакты и искажения, ReconX сохраняет высокий уровень последовательности и реализма.
Стандартные отраслевые показатели подтверждают эти результаты: на таких наборах данных, как Недвижимость10 тыс. и ACID, ReconX забил ПСНР (Пиковое соотношение сигнал/шум) значительно выше, чем существующие альтернативы.
Будущее 3D-видео
Это нововведение открывает интересные перспективы во многих областях. Из виртуальная реальность все автономная навигацияПри документировании культурного наследия потенциальные возможности применения огромны.
Конечно, исследователи признают, что еще есть возможности для улучшения. Качество реконструкции частично зависит от используемой модели видеодиффузии, и ожидается, что использование более совершенных моделей приведет к еще лучшим результатам в будущем.
Однако, безусловно, ReconX представляет собой значительный шаг вперед в области реконструкции 3D-видео и показывает, как искусственный интеллект может преодолеть ограничения, которые еще вчера казались непреодолимыми.