|
|||||||||
|
|
||||||||
09.12 - 12:42
Алгоритм распознавания речи по звуку научил нейросеть распознавать ее по губам| Медицина
Китайские и американские исследователи разработали новый метод обучения нейросетей для распознавания речи по губам, позволивший добиться лучших результатов, чем удавалось аналогичным алгоритмам. Они предложили брать хорошо обученный алгоритм распознавания речи по аудиозаписям и использовать его в качестве учителя для алгоритма распознавания речи по видеозаписям. Благодаря такому методу нейросеть для чтения по губам может выучить некоторые закономерности и признаки, которые сложно выучить, используя только последовательность изображений. Статья о методе будет представлена на конференции AAAI 2020. Поскольку большие и точные нейросетевые модели, как правило, требуют больших вычислительных ресурсов, их сложно применять на смартфонах и других мобильных устройствах. Существуют методы, позволяющие фактически сжать модель, значительно уменьшив ее размер и требуемую вычислительную мощность для работы, но почти полностью сохранив точность. Один из таких методов называется дистилляцией знаний (knowledge distillation). При дистилляции знаний разработчик берет обученную на большом количестве данных большую нейросетевую модель (модель-учитель) и создает более компактную нейросеть (модель-ученик). Суть метода заключается в том, что обе сети получают одинаковые данные и ученик пытается повторить результат работы учителя на каждой единице данных (к примеру, фотографии), причем не только на выходном слое, но и на всех промежуточных. Группа исследователей под руководством Минли Сун (Mingli Song) из Чжэцзянского университета предложила использовать этот метод для обучения чтению по губам. В этом случае в качестве учителя выступает алгоритм распознавания речи по аудиозаписи, потому что такие алгоритмы развиты гораздо лучше, чем алгоритмы для чтения речи по движению губ.
В целом алгоритм можно представить в симметричном виде с двумя параллельными рекуррентными нейросетями. Стоит отметить, что входящий вектор для рекуррентной сети для распознавания по губам формируется на основе вектора со сверточной нейросети, которая обрабатывает кадры видео. Исследователи реализовали дистилляцию знаний в виде нескольких блоков, отвечающих за разные масштабы данных: кадр (или соответствующий отрезок аудио), вся последовательность данных (весь ролик) и наибольшая общая подпоследовательность. Сравнение точности распознавания на этих датасетах с лучшими на момент исследования аналогичными алгоритмами показало, что новый алгоритм справляется с распознаванием по губам на 7,66 процентов лучше на датасете CMLR (31,27 процента ошибок на уровне букв) и на 2,75 процента лучше на LRS2 (45,53 процента ошибок на уровне букв). Движения губ ранее предлагали использовать не только для распознавания речи, но и для повышения безопасности. В 2017 году китайские исследователи предложили анализировать индивидуальную манеру движения губ при произнесении пароля в качестве дополнительного фактора, подтверждающего личность. Григорий Копиев https://nplus1.ru/ Ключевые слова:
|
|||||||||
Читайте также:
Health is important! How to recognize type 2 diabetes by symptomsType 2 diabetes is a serious disease that can affect a person's quality of life. Kwas: odkrywanie sekretów długowieczności z prostych składnikówW świecie, w którym tempo życia gwałtownie nabiera tempa, a rytm życia wydaje się nieubłagany, ludzie nieustannie poszukują sposobów na zachowanie zdrowia i długowieczności. Zdrowie jest ważne! Jak rozpoznać cukrzycę typu 2 po objawachCukrzyca typu 2 to poważna choroba, która może wpływać na jakość życia człowieka. Niebezpieczne substancje osłabiające mechanizmy obronne organizmuW dzisiejszym świecie niestety na stan naszego zdrowia wpływa wiele czynników, w tym także jego mechanizmy ochronne Небезпечні речовини, які ослаблюють захисні сили організмуВ сучасному світі, на жаль, багато факторів може впливати на стан нашого здоров'я, включаючи його захисні механізми. |
|||||||||
|