09.12 - 12:42

Алгоритм распознавания речи по звуку научил нейросеть распознавать ее по губам


 

Китайские и американские исследователи разработали новый метод обучения нейросетей для распознавания речи по губам, позволивший добиться лучших результатов, чем удавалось аналогичным алгоритмам. Они предложили брать хорошо обученный алгоритм распознавания речи по аудиозаписям и использовать его в качестве учителя для алгоритма распознавания речи по видеозаписям. Благодаря такому методу нейросеть для чтения по губам может выучить некоторые закономерности и признаки, которые сложно выучить, используя только последовательность изображений. Статья о методе будет представлена на конференции AAAI 2020.

Поскольку большие и точные нейросетевые модели, как правило, требуют больших вычислительных ресурсов, их сложно применять на смартфонах и других мобильных устройствах. Существуют методы, позволяющие фактически сжать модель, значительно уменьшив ее размер и требуемую вычислительную мощность для работы, но почти полностью сохранив точность. Один из таких методов называется дистилляцией знаний (knowledge distillation).

При дистилляции знаний разработчик берет обученную на большом количестве данных большую нейросетевую модель (модель-учитель) и создает более компактную нейросеть (модель-ученик). Суть метода заключается в том, что обе сети получают одинаковые данные и ученик пытается повторить результат работы учителя на каждой единице данных (к примеру, фотографии), причем не только на выходном слое, но и на всех промежуточных.

Группа исследователей под руководством Минли Сун (Mingli Song) из Чжэцзянского университета предложила использовать этот метод для обучения чтению по губам. В этом случае в качестве учителя выступает алгоритм распознавания речи по аудиозаписи, потому что такие алгоритмы развиты гораздо лучше, чем алгоритмы для чтения речи по движению губ.

 

В целом алгоритм можно представить в симметричном виде с двумя параллельными рекуррентными нейросетями. Стоит отметить, что входящий вектор для рекуррентной сети для распознавания по губам формируется на основе вектора со сверточной нейросети, которая обрабатывает кадры видео. Исследователи реализовали дистилляцию знаний в виде нескольких блоков, отвечающих за разные масштабы данных: кадр (или соответствующий отрезок аудио), вся последовательность данных (весь ролик) и наибольшая общая подпоследовательность.
Разработчики обучали и проверяли работу метода на стандартных для такой задачи датасетах: LRS2, содержащий более 45 тысяч предложений, произнесенных в эфире BBC, а также CMLR — крупнейший датасет для чтения по губам на севернокитайском (мандаринском) языке, содержащий более 100 тысяч предложений из эфира CNTV.

Сравнение точности распознавания на этих датасетах с лучшими на момент исследования аналогичными алгоритмами показало, что новый алгоритм справляется с распознаванием по губам на 7,66 процентов лучше на датасете CMLR (31,27 процента ошибок на уровне букв) и на 2,75 процента лучше на LRS2 (45,53 процента ошибок на уровне букв).

Движения губ ранее предлагали использовать не только для распознавания речи, но и для повышения безопасности. В 2017 году китайские исследователи предложили анализировать индивидуальную манеру движения губ при произнесении пароля в качестве дополнительного фактора, подтверждающего личность.

Григорий Копиев

https://nplus1.ru/

Ключевые слова:
Читайте также:

Как правильно питаться, чтобы продлить жизнь 

Нутрициолог Марк Гилберт рассказал о правилах питания, которые помогут продлить жизнь. Об этом сообщает Express.
Подробнее »»

5 домашних средств для ног после воска

Депиляция волос с помощью воска оставляет на коже множество мелких раночек, а также провоцирует кожную сыпь. И вот лучшие домашние средства для борьбы с этими явлениями.
Подробнее »»

Гранатовый сок замедляет процесс старения 

Врачи доказали, что употребление гранатового сока замедляет процесс старения, тормозит развитие заболеваний сердца и онкозаболеваний. Об этом сообщает Express.
Подробнее »»

Вернуть красоту кожи: как прийти в себя после вечеринки и избавиться от ее последствий

Сегодня в нашей рубрике про красоту весьма необычная тема. Вечеринки и посиделки с друзьями, сопровождающиеся питьем алкоголя, могут всерьез сказаться на состоянии кожи.
Подробнее »»

Домашний уход за кожей очень важен, но только в том случае, если он действительно работает.

Каждая женщина боится первых признаков уходящей молодости. Однако зачастую не морщины и цифры в паспорте мешают ей почувствовать себя лучше, а собственные ошибки в макияже и стиле.
Подробнее »»

bigmir)net TOP 100 Яндекс.Метрика

При использовании информации в печатном или электронном виде ссылка на www.neboley.com.ua обязательна.
Интернет–издание не несет ответственность за достоверность информации, размещенной в разделах народной медицины. Предупреждаем, прежде чем воспользоваться рецептами нетрадиционной медицины обязательно посоветуйтесь с врачом.
За содержание рекламы ответственность несет рекламодатель.

Электронная почта портала: info@neboley.com.ua