|
|||||||||
|
|
||||||||
03.01 - 14:55
Китайцы научили нейросеть превращать речь в пение| Медицина
Китайские разработчики создали алгоритм, способный синтезировать запись с пением человека на основе записи с его обычной речью, или же выполнять обратную задачу и синтезировать речь на основе пения. Статья с описанием разработки, обучения и тестирования алгоритма опубликована на arXiv.org. В последние годы развитие нейросетевых алгоритмов для синтеза речи, таких как WaveNet, позволило создать системы, которые достаточно сложно отличить от реальных людей. Например, Google в 2018 году показала голосового помощника для бронирования мест, который умеет не только реалистично говорить, но и вставлять слова, придающие речи правдоподобность, например, «эмм». В результате компании пришлось также научить алгоритм предупреждать в начале разговора, что он не является человеком. Как и в случае с другими нейросетевыми алгоритмами, успех систем синтеза речи во многом связан не с их архитектурой, а с большим объемом доступных данных для обучения. Создание системы синтеза пения представляет собой похожую на первый взгляд задачу, но на самом деле гораздо сложнее из-за значительно меньшей доступности данных. Многие разработчики систем генерации пения в последнее время шли по пути уменьшения объема необходимых образцов пения конкретного человека для обучения алгоритма, а теперь группа китайских исследователей под руководством Дуна Юя (Dong Yu) из компании Tencent создала систему, которая способна создавать реалистичную аудиозапись с пением, получая на вход только образцы речи. Алгоритм основан на предыдущей разработке Tencent — нейросети DurIAN, предназначенной для синтеза реалистичных видеороликов с говорящим ведущим на основе текста. Перед DuarIAN в новом алгоритме установлен блок распознавания речи, который создает на основе входящей аудиозаписи фонемы с указанием их продолжительности, а также основные частоты. Эти данные попадают на блок, состоящий из кодировщика и декодировщика, который формирует мел-спектрограмму, которую отдельная нейросеть превращает в аудиозапись. Алгоритм может работать в обе стороны, конвертируя речь в пение и наоборот. Авторы обучили алгоритм на двух собственных датасетах, состоящих из полутора часов пения и 28 часов речи. После обучения разработчики проверили эффективность алгоритма на 14 добровольцах, которые оценивали реалистичность синтезированного пения и похожесть тембра на исходную запись. В результате один из вариантов алгоритма набрал 3,8 балла по реалистичности и 3,65 по похожести. На сайте авторов опубликованы образцы работы нейросети. Многие исследования в области нейросетевых алгоритмов по работе со звуком связаны с музыкой. Например, нейросети уже умеют менять жанр, стиль и инструменты в песнях, а также выполнять более практичные задачи, в том числе дополнять мелодию игрой на барабанах. https://nplus1.ru/ Ключевые слова:
|
|||||||||
Читайте также:
Möglichkeiten zur Überwindung emotionaler Überernährung: eine Übersicht über wirksame MethodenEmotionales Überessen ist ein Problem, mit dem viele Menschen in der heutigen Welt konfrontiert sind. Ways to overcome emotional overeating: a review of effective methodsEmotional overeating is a problem that many people face in today's world. Способы преодоления эмоционального переедания: рассмотрение эффективных методовЭмоциональное переедание – это проблема, с которой сталкивается много людей в современном мире. Завтрак и ожирение: миф или реальность? Раскрытие названных продуктовЗавтрак считается одним из важнейших приёмов пищи в течение дня. Способи подолання емоційного переїдання: розгляд ефективних методівЕмоційне переїдання - це проблема, з якою стикається багато людей у сучасному світі. |
|||||||||
|