09.12 - 12:42

Алгоритм распознавания речи по звуку научил нейросеть распознавать ее по губам


 

Китайские и американские исследователи разработали новый метод обучения нейросетей для распознавания речи по губам, позволивший добиться лучших результатов, чем удавалось аналогичным алгоритмам. Они предложили брать хорошо обученный алгоритм распознавания речи по аудиозаписям и использовать его в качестве учителя для алгоритма распознавания речи по видеозаписям. Благодаря такому методу нейросеть для чтения по губам может выучить некоторые закономерности и признаки, которые сложно выучить, используя только последовательность изображений. Статья о методе будет представлена на конференции AAAI 2020.

Поскольку большие и точные нейросетевые модели, как правило, требуют больших вычислительных ресурсов, их сложно применять на смартфонах и других мобильных устройствах. Существуют методы, позволяющие фактически сжать модель, значительно уменьшив ее размер и требуемую вычислительную мощность для работы, но почти полностью сохранив точность. Один из таких методов называется дистилляцией знаний (knowledge distillation).

При дистилляции знаний разработчик берет обученную на большом количестве данных большую нейросетевую модель (модель-учитель) и создает более компактную нейросеть (модель-ученик). Суть метода заключается в том, что обе сети получают одинаковые данные и ученик пытается повторить результат работы учителя на каждой единице данных (к примеру, фотографии), причем не только на выходном слое, но и на всех промежуточных.

Группа исследователей под руководством Минли Сун (Mingli Song) из Чжэцзянского университета предложила использовать этот метод для обучения чтению по губам. В этом случае в качестве учителя выступает алгоритм распознавания речи по аудиозаписи, потому что такие алгоритмы развиты гораздо лучше, чем алгоритмы для чтения речи по движению губ.

 

В целом алгоритм можно представить в симметричном виде с двумя параллельными рекуррентными нейросетями. Стоит отметить, что входящий вектор для рекуррентной сети для распознавания по губам формируется на основе вектора со сверточной нейросети, которая обрабатывает кадры видео. Исследователи реализовали дистилляцию знаний в виде нескольких блоков, отвечающих за разные масштабы данных: кадр (или соответствующий отрезок аудио), вся последовательность данных (весь ролик) и наибольшая общая подпоследовательность.
Разработчики обучали и проверяли работу метода на стандартных для такой задачи датасетах: LRS2, содержащий более 45 тысяч предложений, произнесенных в эфире BBC, а также CMLR — крупнейший датасет для чтения по губам на севернокитайском (мандаринском) языке, содержащий более 100 тысяч предложений из эфира CNTV.

Сравнение точности распознавания на этих датасетах с лучшими на момент исследования аналогичными алгоритмами показало, что новый алгоритм справляется с распознаванием по губам на 7,66 процентов лучше на датасете CMLR (31,27 процента ошибок на уровне букв) и на 2,75 процента лучше на LRS2 (45,53 процента ошибок на уровне букв).

Движения губ ранее предлагали использовать не только для распознавания речи, но и для повышения безопасности. В 2017 году китайские исследователи предложили анализировать индивидуальную манеру движения губ при произнесении пароля в качестве дополнительного фактора, подтверждающего личность.

Григорий Копиев

https://nplus1.ru/

Ключевые слова:
Читайте также:

Средства реабилитации и ухода за лежачим больным

После оперативного вмешательства, травмы, ранения или тяжелого заболевания человек нуждается в реабилитации и уходе по специальной программе, разработанной лечащим врачом
Подробнее »»

Диетолог назвала лучшее время для чашечки кофе

Врач-диетолог Маргарита Королева рассказала, как извлечь максимальную пользу из кофе и почему не стоит с этого напитка начинать свой день
Подробнее »»

Диетолог рассказал, как выбрать полезный йогурт

При покупке йогурта следует обратить внимание на несколько ключевых критериев.
Подробнее »»

Названы тревожные симптомы рассеянного склероза

Симптомы рассеянного склероза могут различаться в зависимости от того, в какой зоне поврежден мозг
Подробнее »»

Какие фрукты нельзя сочетать с алкоголем: чек-лист

Веселиться на празднике без алкоголя — на такое способны исключительные личности и, конечно, дети, но у них обычно нет выбора.
Подробнее »»

bigmir)net TOP 100 Яндекс.Метрика

При использовании информации в печатном или электронном виде ссылка на www.neboley.com.ua обязательна.
Интернет–издание не несет ответственность за достоверность информации, размещенной в разделах народной медицины. Предупреждаем, прежде чем воспользоваться рецептами нетрадиционной медицины обязательно посоветуйтесь с врачом.
За содержание рекламы ответственность несет рекламодатель.

Электронная почта портала: info@neboley.com.ua