09.12 - 12:42

Алгоритм распознавания речи по звуку научил нейросеть распознавать ее по губам


 

Китайские и американские исследователи разработали новый метод обучения нейросетей для распознавания речи по губам, позволивший добиться лучших результатов, чем удавалось аналогичным алгоритмам. Они предложили брать хорошо обученный алгоритм распознавания речи по аудиозаписям и использовать его в качестве учителя для алгоритма распознавания речи по видеозаписям. Благодаря такому методу нейросеть для чтения по губам может выучить некоторые закономерности и признаки, которые сложно выучить, используя только последовательность изображений. Статья о методе будет представлена на конференции AAAI 2020.

Поскольку большие и точные нейросетевые модели, как правило, требуют больших вычислительных ресурсов, их сложно применять на смартфонах и других мобильных устройствах. Существуют методы, позволяющие фактически сжать модель, значительно уменьшив ее размер и требуемую вычислительную мощность для работы, но почти полностью сохранив точность. Один из таких методов называется дистилляцией знаний (knowledge distillation).

При дистилляции знаний разработчик берет обученную на большом количестве данных большую нейросетевую модель (модель-учитель) и создает более компактную нейросеть (модель-ученик). Суть метода заключается в том, что обе сети получают одинаковые данные и ученик пытается повторить результат работы учителя на каждой единице данных (к примеру, фотографии), причем не только на выходном слое, но и на всех промежуточных.

Группа исследователей под руководством Минли Сун (Mingli Song) из Чжэцзянского университета предложила использовать этот метод для обучения чтению по губам. В этом случае в качестве учителя выступает алгоритм распознавания речи по аудиозаписи, потому что такие алгоритмы развиты гораздо лучше, чем алгоритмы для чтения речи по движению губ.

 

В целом алгоритм можно представить в симметричном виде с двумя параллельными рекуррентными нейросетями. Стоит отметить, что входящий вектор для рекуррентной сети для распознавания по губам формируется на основе вектора со сверточной нейросети, которая обрабатывает кадры видео. Исследователи реализовали дистилляцию знаний в виде нескольких блоков, отвечающих за разные масштабы данных: кадр (или соответствующий отрезок аудио), вся последовательность данных (весь ролик) и наибольшая общая подпоследовательность.
Разработчики обучали и проверяли работу метода на стандартных для такой задачи датасетах: LRS2, содержащий более 45 тысяч предложений, произнесенных в эфире BBC, а также CMLR — крупнейший датасет для чтения по губам на севернокитайском (мандаринском) языке, содержащий более 100 тысяч предложений из эфира CNTV.

Сравнение точности распознавания на этих датасетах с лучшими на момент исследования аналогичными алгоритмами показало, что новый алгоритм справляется с распознаванием по губам на 7,66 процентов лучше на датасете CMLR (31,27 процента ошибок на уровне букв) и на 2,75 процента лучше на LRS2 (45,53 процента ошибок на уровне букв).

Движения губ ранее предлагали использовать не только для распознавания речи, но и для повышения безопасности. В 2017 году китайские исследователи предложили анализировать индивидуальную манеру движения губ при произнесении пароля в качестве дополнительного фактора, подтверждающего личность.

Григорий Копиев

https://nplus1.ru/

Ключевые слова:
Читайте также:

Welche Lebensmittel können nicht aufgewärmt werden

Gefährliche Folgen einer unsachgemäßen Lebensmittelverarbeitung können unsere Gesundheit gefährden, insbesondere wenn es um das Erhitzen bestimmter Produkte geht.
Подробнее »»

Which foods cannot be reheated

Dangerous consequences of improper food processing can threaten our health, especially when it comes to heating certain products.
Подробнее »»

Какие продукты нельзя повторно разогревать

Опасные последствия неправильной обработки пищи могут угрожать нашему здоровью, особенно когда речь идет о нагреве определенных продуктов.
Подробнее »»

Які продукти не можна повторно розігрівати

Небезпечні наслідки від неправильної обробки їжі можуть загрожувати нашому здоров'ю, особливо коли мова йде про нагрівання певних продуктів.
Подробнее »»

Эффективность тканевых масок для лица: защита и комфорт

В связи с ростом осведомленности о безопасности здоровья во время пандемии COVID-19 использование тканевых масок для лица стало нормой в повседневной жизни.
Подробнее »»

bigmir)net TOP 100 Яндекс.Метрика

При использовании информации в печатном или электронном виде ссылка на www.neboley.com.ua обязательна.
Интернет–издание не несет ответственность за достоверность информации, размещенной в разделах народной медицины. Предупреждаем, прежде чем воспользоваться рецептами нетрадиционной медицины обязательно посоветуйтесь с врачом.
За содержание рекламы ответственность несет рекламодатель.

Электронная почта портала: info@neboley.com.ua