Алгоритмы искусственного интеллекта и машинного обучения, которые могут читать по губам из видео, на самом деле ничего необычного.
В 2016 году исследователи из Google и Оксфордского университета подробно описали систему, которая может читать по губам и комментировать отснятый материал с точностью 46,8%. Вам это кажется мало? Он уже превысил точность профессионального устройства для чтения по губам на 12,4%. И еще не было LIBS.
Однако 46,8% не соответствуют возможностям, которые искусственный интеллект может показать сегодня. Современные системы изо всех сил пытаются преодолеть двусмысленность в движениях губ, что не позволяет их производительности превзойти производительность распознавания речи на основе звука.
В поисках более эффективной системы исследователи из Alibaba, Университет Чжэцзян и Технологический институт Стивенса они разработали метод, получивший название LipS Speech (LIBS), который использует функции, извлеченные из распознавания речи, в качестве дополнительных сигналов. Система поднимает планку еще на 8% и еще может улучшиться.
LIBS и другие подобные решения могут помочь людям с нарушениями слуха следить за видео без субтитров. По оценкам, 466 миллионов человек во всем мире страдают от потери слуха, что эквивалентно примерно 5% населения мира. По данным Всемирной организации здравоохранения, к 2050 году их число может превысить 900 миллионов.
AI метод чтения по губам
LIBS извлекает полезную аудиоинформацию из нескольких факторов: Как опытный криптограф, ИИ ищет понятные слова. В этот момент он сравнивает их с губным соответствием и ищет все подобные лабили. Но на этом он не останавливается: он также сравнивает частоту видео этих кадров и другие технические подсказки, уточняя поиск до момента чтения по губам даже слов, непонятных нашему уху.
Если это кажется сложным, попробуйте еще раз, но я ничего не обещаю.
Я цитирую Технология презентационной бумаги. «Как распознавание речи, так и компоненты чтения по губам LIBS основаны на архитектуре последовательности-последовательности, основанной на внимании, методе машинного перевода, который сопоставляет входные данные с последовательностью (аудио или видео).
Исследователи обучали ИИ на исходной базе данных, содержащей более 45.000 100.000 предложений, произнесенных BBC, и на CMLR, крупнейшем китайском корпусе, доступном для чтения по губам на китайском языке, с более чем XNUMX XNUMX естественных предложений.
Области применения не ограничиваются только помощью глухим. Традиция приписывания каждой технологии «социально благородного» использования никогда не должна заставлять нас забывать, что основное применение этих технологий приходится на военную сферу или сектор безопасности.
Никто не думал, что эта система может сделать наблюдение за безопасностью еще более безошибочным и распространенным новые удивительные камеры видеонаблюденияили новые спутниковые системы?
Теперь, когда ИИ становится всезнающий глаз это будет шутка слушать (или восстановить) наш шепот даже с орбитального спутника.