Я хочу воспроизводить очень реалистично звучащую речь с помощью Amazon Polly - более реалистичную, чем результаты, полученные при разрешении Amazon Polly генерировать речевой аудиовыход из обычного ввода текста. Для этого я хочу сказать Полли, чтобы она сделала все возможное, чтобы точно соответствовать заданному образцу входного реального речевого аудиофайла, который был озвучен / записан актером озвучивания. Другими словами, я хочу преобразовать озвученную речь, созданную голосовым актером, в последовательность каких-то кодов (например, фонем, временных кодов и т. Д.), Подходящих в качестве входных данных для polly api, который затем может создавать выходной аудиофайл, который должен максимально точно имитировать исходный записанный ввод.
Принимает ли какой-либо API AWS звуковой файл речи в качестве входных данных и превращает его в серию кодов (например, фонем и информацию о времени), которые затем можно передать в api polly для генерации соответствующей речи? Если нет, то есть ли другой api, который можно было бы использовать для первого шага?
Почему? Использование Polly для создания речи «обычным способом» - путем ввода текста в api polly - имеет тенденцию воспроизводить недостаточно естественно звучащую речь (хотя это может быть лучший механизм преобразования текста в речь на данный момент). Речь API Polly, созданная «обычным способом», не имеет правильного тайминга / просодии. Мы попытались вручную преобразовать слово в слово в фонемы и вручную добавить информацию о времени, а затем передать ее в API Polly в качестве входных данных, но это очень трудоемко и не дает очень удовлетворительного результата. Мы использовали это в приложениях. Для особо важных частей речи нам нужно улучшить качество. Мы не можем использовать записанный звук от голосового актера, как можно было бы в других обстоятельствах, потому что тогда он не будет соответствовать остальной части речи, созданной API Polly.
Кстати, прежде чем проголосовать за этот пост, потому что он не включает небольшой фрагмент кода ... учтите, что это все еще проблема с кодированием, только не в форме `` помогите мне отредактировать мой фрагмент кода, чтобы сделать x '' - хотя ответ фрагмента кода был бы прекрасной формой для ответа на вопрос, если такой ответ существует! На самом деле это очень важная и общая проблема кодирования, которая потенциально затрагивает любого кодировщика, которому необходимо создавать реалистичную речь с помощью кода.
Спасибо