Преобразование голоса A в голос B с помощью librosa

Я новичок в librosa и voice/sound анализе. Я искал этот прямой вопрос в SO и google, но не получил понятного ответа.

Предположим, что есть два голоса A и B. Я хочу преобразовать voice A в voice B.

Учитывая оба голоса, можно ли сделать что-то на A, чтобы оно звучало как B?


person Naroju    schedule 27.11.2020    source источник


Ответы (1)


Такую задачу иногда называют передачей стиля, когда содержание остается прежним (произносимые слова), но выражение меняется с помощью стиля (просодия, как они произносятся). Некоторые ключевые слова для поиска: передача стиля голоса, передача стиля речи, передача стиля звука, перевод голоса, клонирование голоса, передача просодии. Вот объяснение некоторых подходов от Кайла Кастнера. , практик в этой области.

Хорошая передача стиля речи – достаточно сложная задача, и в последние годы по ней было опубликовано много научных работ. Многие системы передачи стиля речи, использующие нейронные сети, являются адаптациями моделей преобразования текста в речь (TTS)/синтеза речи, таких как Tacotron, Tacotron 2 или Wavenet.

На Github есть много реализаций с открытым исходным кодом документов о переносе нейронного стиля речи, но многие из них требуют значительной настройки для использования (загрузка наборов данных, моделей, форматирование входных данных и т. д.). Одной из самых популярных альтернатив является Клонирование голоса в реальном времени, которое должно в состоянии клонировать голос с 5 секундами аудио. Другой пример: https://sforaidl.github.io/Neural-Voice-Cloning-With-Few-Samples/

person Jon Nordby    schedule 28.11.2020
comment
Спасибо за ответ. - person Naroju; 28.11.2020