Исследователи из Стэнфордского университета совершили значительный прорыв в разработке мозг-компьютерные интерфейсы (BCI). Создав технологию, способную расшифровывать разговорную речь со скоростью до 62 слов в минуту, команда улучшила предыдущий рекорд почти в 3 раза.
Развитие, которое приближает эти системы к ритмам естественного разговора и к практически мгновенному преобразованию голоса.
Слова слова слова
Соучредитель Neuralink вместе с Илоном Маском, Макс Ходак, назвал исследование Стэнфорда «значительным сдвигом в полезности имплантатов мозг-компьютер». Но в чем именно он состоит?
Суть всей работы, подробно в документе, на который я ссылаюсь здесь, заключается в возможности «перевода» сигналов мозга в связную речь с помощью алгоритма машинного обучения. И сделать это, проанализировав активность мозга в относительно небольшой области коры.
L'obiettivo? Чтобы помочь людям, которые больше не могут говорить из-за таких заболеваний, как БАС, восстановить голос. Настоящий квантовый скачок: голосовой интерфейс такого типа мог значительно ускорить расшифровку сигналов мозга.

Тесты
В одном эксперименте команда записала (из двух небольших областей мозга) нейронную активность пациента с БАС, который может двигать ртом, но с трудом формирует слова.
Используя рекуррентный декодер нейронной сети, который может предсказывать текст, исследователи преобразовали эти сигналы в слова. Слова, которые идут в темпе, которого никогда раньше не было.
Было обнаружено, что анализ движений лица и связанной с ними нейронной активности достаточно силен, чтобы поддерживать систему интерфейса мозг-компьютер, несмотря на паралич и ограниченное расширение коры головного мозга.
Проблемы, с которыми приходится сталкиваться
В настоящее время система работает быстро, но все еще несовершенна: частота ошибок декодера рекуррентной нейронной сети (RNN), используемого исследователями это еще 20%.
Исследователям это хорошо известно: «Наша демонстрация, — пишут они, — свидетельствует о том, что декодирование попыток речевых движений из внутрикорковых записей является многообещающим подходом, даже если это еще не полная и клинически жизнеспособная система».
Чтобы уменьшить количество ошибок и оптимизировать алгоритм, исследования теперь будут направлены на изучение большего количества областей мозга.
Представьте себе такие технологии в сочетании с искусственным интеллектом. Алгоритмы, способные идеально клонировать голос, такие как тот, который недавно представил Microsoft который занимает всего 3 секунды звука.
В будущем никто не будет молчать.