Исследователи Стэнфордского университета совершили значительный прорыв в разработке мозг-компьютерные интерфейсы (BCI). Создав технологию, способную расшифровывать разговорную речь со скоростью до 62 слов в минуту, команда улучшила предыдущий рекорд почти в 3 раза.
Разработка, которая приближает эти системы к ритму естественного разговора и практически мгновенному преобразованию голоса.
Слова слова слова
Соучредитель Neuralink вместе с Илоном Маском, Макс Ходак, назвал Стэнфордское исследование «значительным сдвигом в полезности имплантатов мозг-компьютер». Но в чем именно оно состоит?
Суть всей работы, подробно в документе, на который я ссылаюсь здесь, — это способность «переводить» сигналы мозга в связную речь с помощью алгоритма машинного обучения. И сделайте это, анализируя активность мозга в относительно небольшой области коры.
Цель? Помогаем людям, которые больше не могут говорить из-за таких заболеваний, как БАС, восстановить голос. Настоящий скачок в качестве: голосовой интерфейс такого типа мог бы существенно ускорить декодирование сигналов мозга.
Тесты
В одном эксперименте команда записала (по двум небольшим участкам мозга) нейронную активность пациента с БАС, который может двигать ртом, но испытывает трудности с формированием слов.
Используя рекуррентный декодер нейронной сети, который может предсказывать текст, исследователи преобразовали эти сигналы в слова. Слова, которые идут в темпе, которого никогда раньше не было.
Было обнаружено, что анализ движений лица и связанной с ним нейронной активности достаточно силен, чтобы поддерживать систему взаимодействия мозга с компьютером, несмотря на паралич и ограниченное расширение коры головного мозга.
Проблемы, с которыми приходится сталкиваться
В настоящее время система работает быстро, но все еще несовершенна: частота ошибок декодера рекуррентной нейронной сети (RNN), используемого исследователями это еще 20%.
Исследователи это хорошо знают: «Наша демонстрация, — пишут они, — свидетельствует о том, что декодирование предпринятых речевых движений по внутрикортикальным записям является многообещающим подходом, даже если это еще не полная, клинически жизнеспособная система».
Чтобы снизить частоту ошибок и оптимизировать алгоритм, исследования теперь будут направлены на исследование большего количества областей мозга.
Представьте себе такие технологии в сочетании с искусственным интеллектом. Алгоритмы, способные идеально клонировать голос, такие как тот, который недавно представил Microsoft который занимает всего 3 секунды звука.
В будущем никто не будет молчать.