Кажется, есть будущее, в котором мысли больше не будут просто эфемерными образами в нашем сознании, а смогут стать видео HQ. И кажется, что будущее все ближе к реальности. Группа опытных исследователей только что открыла ящик Пандоры в области неврологии. В помощь ему хорошая доза ИИ.
Мозг-проектор
Цзясинь Цин, Цзыцзяо Чен e Хуан Хелен Чжоу, Национального университета Сингапура и Китайского университета Гонконга, представили довольно интересную исследовательскую работу. Команда объединила данные функциональной магнитно-резонансной томографии (фМРТ) с генеративным искусственным интеллектом стабильной диффузии для создания МинД-Видео, модель, которая может генерировать видео HQ непосредственно из чтения мозга.
Вы могли бы сказать, что это научная фантастика: но нет, все тщательно задокументировано на arXiv, e. это ссылка.
Как именно работает MinD-Video?
MinD-Video — это не просто генератор видео, а целая система, предназначенная для декодирования изображений, созданных ИИ, и изображений, созданных мозговым диалогом. Но как тренировать такую систему?
Исследователи использовали общедоступный набор данных, содержащий видеоролики и связанные с ними показания фМРТ субъектов, которые их смотрели. И судя по всему, работа удалась на славу.
Смотрите мысли, мы добрались туда

Видео, опубликованные учеными, показывают поистине захватывающие результаты. Возьмем, к примеру, оригинальное видео с лошадьми в поле. MinD-Video «перестроил» его в более яркую версию лошадей. В другом случае автомобиль едет по лесистой местности, а реконструированное видео показывает путешествие от первого лица по извилистой дороге.
По словам исследователей, реконструированные видео имеют «высокое качество» с четко определенными движениями и динамикой сцены. А точность? 85%, значительное улучшение по сравнению с предыдущие попытки.
Чтение мыслей и HQ-видео, что дальше?
«Будущее светлое, а потенциальные области применения огромны. интерфейсы мозг-компьютер, мы считаем, что наша работа окажет важное влияние», — заявили авторы. И выводы выходят за рамки этого: их работа подчеркнула доминирующую роль зрительной коры в зрительном восприятии и способность их модели усваивать все более сложную информацию. во время обучения.

Модель стабильной диффузии, используемая в этом новом исследовании, делает визуализацию более точной. «Ключевое преимущество нашей модели перед другими генеративными моделями, такими как le ГАН, это возможность производить видео более высокого качества. Он использует представления, полученные от кодировщика фМРТ, и использует свой уникальный процесс распространения для создания видео HQ, которые лучше соответствуют исходной активности нейронов», — объяснили исследователи.
Словом, похоже, мы действительно вступили в эпоху чтение мыслей посредством искусственного интеллекта. Поле, открытое тысяче возможностей, где пределом, кажется, является только воображение.