Использование Amazon Polly Text to Speech для имитации интонации реальной речевой волны из аудиофайла

Я хочу воспроизводить очень реалистично звучащую речь с помощью Amazon Polly - более реалистичную, чем результаты, полученные при разрешении Amazon Polly генерировать речевой аудиовыход из обычного ввода текста. Для этого я хочу сказать Полли, чтобы она сделала все возможное, чтобы точно соответствовать заданному образцу входного реального речевого аудиофайла, который был озвучен / записан актером озвучивания. Другими словами, я хочу преобразовать озвученную речь, созданную голосовым актером, в последовательность каких-то кодов (например, фонем, временных кодов и т. Д.), Подходящих в качестве входных данных для polly api, который затем может создавать выходной аудиофайл, который должен максимально точно имитировать исходный записанный ввод.

Принимает ли какой-либо API AWS звуковой файл речи в качестве входных данных и превращает его в серию кодов (например, фонем и информацию о времени), которые затем можно передать в api polly для генерации соответствующей речи? Если нет, то есть ли другой api, который можно было бы использовать для первого шага?

Почему? Использование Polly для создания речи «обычным способом» - путем ввода текста в api polly - имеет тенденцию воспроизводить недостаточно естественно звучащую речь (хотя это может быть лучший механизм преобразования текста в речь на данный момент). Речь API Polly, созданная «обычным способом», не имеет правильного тайминга / просодии. Мы попытались вручную преобразовать слово в слово в фонемы и вручную добавить информацию о времени, а затем передать ее в API Polly в качестве входных данных, но это очень трудоемко и не дает очень удовлетворительного результата. Мы использовали это в приложениях. Для особо важных частей речи нам нужно улучшить качество. Мы не можем использовать записанный звук от голосового актера, как можно было бы в других обстоятельствах, потому что тогда он не будет соответствовать остальной части речи, созданной API Polly.

Кстати, прежде чем проголосовать за этот пост, потому что он не включает небольшой фрагмент кода ... учтите, что это все еще проблема с кодированием, только не в форме `` помогите мне отредактировать мой фрагмент кода, чтобы сделать x '' - хотя ответ фрагмента кода был бы прекрасной формой для ответа на вопрос, если такой ответ существует! На самом деле это очень важная и общая проблема кодирования, которая потенциально затрагивает любого кодировщика, которому необходимо создавать реалистичную речь с помощью кода.

Спасибо


person user2330237    schedule 24.11.2018    source источник
comment
Я не думаю, что это «плохой» вопрос, потому что это реальная проблема ... но приготовьтесь к церемониальному понижению голосов и закрытию слишком широкого вопроса ... он может больше подходит для такой сайт, как softwareengineering.stackexchange.com.   -  person Nerdy Bunz    schedule 24.11.2018
comment
@BooberBunz, ссылаясь на другие сайты, часто бывает полезно указать, что перекрестная публикация не одобряется   -  person gnat    schedule 24.11.2018


Ответы (1)


Принимает ли какой-либо API AWS звуковой файл речи в качестве входных данных и превращает его в серию кодов (например, фонем и информацию о времени), которые затем можно передать в api polly для генерации соответствующей речи?

Вы серьезно думаете, что Amazon создал какой-то секретный API, скрытый от пользователей, но какой-то храбрый хакер раскроет вам здесь недокументированный код доступа к API?

Если нет, то есть ли другой api, который можно было бы использовать для первого шага?

Это существует в открытом исходном коде, конечно, не связанном с AWS.

https://github.com/KinglittleQ/GST-Tacotron

person Nikolay Shmyrev    schedule 24.11.2018