Кажется, есть будущее, в котором мысли перестанут быть просто мимолетными образами в нашем сознании, а смогут стать видео высокого качества. И кажется, что будущее становится все ближе к реальности. Группа опытных исследователей только что открыла ящик Пандоры в области нейробиологии. В помощь ему хорошая доза ИИ.
«Проекторный» мозг
Цзясинь Цин, Цзыцзяо Чен e Хуан Хелен Чжоуиз Национального университета Сингапура и Китайского университета Гонконга представили довольно интересную исследовательскую работу. Команда объединила данные, полученные с помощью функциональной магнитно-резонансной томографии (фМРТ), с генеративным искусственным интеллектом Stable Diffusion, чтобы создать МинД-Видео, модель, которая может генерировать видео HQ непосредственно из чтения мозга.
Вы могли бы сказать, что это научная фантастика: но нет, все тщательно задокументировано на arXiv, e. это ссылка.
Как именно работает MinD-Video?
MinD-Video — это не простой видеогенератор, а целая система, предназначенная для обмена данными между декодированием изображений, выполняемым ИИ, и мозгом. Но как обучить такую систему?
Исследователи использовали общедоступный набор данных, содержащий видеоролики и связанные с ними показания фМРТ субъектов, которые их смотрели. И судя по всему, работа удалась на славу.
Смотрите мысли, мы добрались туда
Видео, опубликованные учеными, демонстрируют поистине потрясающие результаты. Возьмем, к примеру, оригинальное видео с лошадьми в поле. МинД-Видео «перестроили» его, создав более яркую версию лошадей. В другом случае автомобиль проезжает через лесной массив, а на реконструированном видео показано путешествие от первого лица по извилистой дороге.
По словам исследователей, реконструированные видео имеют «высокое качество», с четко выраженными движениями и динамикой сцены. А точность? 85%, значительное улучшение по сравнению с предыдущие попытки.
Чтение мыслей и HQ-видео, что дальше?
«Будущее светлое, а потенциальные возможности применения огромны. От нейробиологии к интерфейсы мозг-компьютерМы верим, что наша работа может иметь важное значение», — заявили авторы. И на этом результаты не заканчиваются: их работа подчеркнула доминирующую роль зрительной коры в зрительном восприятии, а также способность их модели усваивать все более сложную информацию во время обучения.
Модель стабильной диффузии, используемая в этом новом исследовании, делает визуализацию более точной. «Ключевое преимущество нашей модели перед другими генеративными моделями, такими как le ГАН, — это возможность создавать видео более высокого качества. Он использует преимущества представлений, полученных от кодера фМРТ, и использует свой уникальный процесс диффузии для создания высококачественных видеороликов, которые лучше соответствуют исходной нейронной активности», — объяснили исследователи.
Короче говоря, похоже, что мы действительно вступили в эпоху чтение мыслей посредством искусственного интеллекта. Поле, открытое для тысячи возможностей, где пределом является только воображение.