Преобразование речи в текст (распознавание голоса) непосредственно из аудио/транскрипции

Должна быть возможность преобразовывать или транскрибировать аудио (например, из .MP3, другого аудиоформата), содержащее речь, в текстовые расшифровки с использованием алгоритма преобразования речи в текст (распознавание голоса) с высокой точностью. Существует множество доступных способов сделать это, которые становятся все более точными, но предназначены для речи, произносимой в микрофон устройства (например, Google Translate/соответствующий API для Интернета, приложение Dragon для iOS). Мне нужен способ напрямую передать аудиофайл в механизм распознавания речи/API. Не нужно воспроизводить звук через динамик и записывать его с помощью микрофона — это занимает много времени для длинных аудиофайлов и ухудшает качество звука и, как следствие, качество транскрипции. Существует ли веб-служба, API или код для этого? Есть ли какая-то оболочка вокруг одной из существующих служб, которая предполагает, что микрофон будет источником?

Спасибо

user2330237 25.05.2014 источник

comment

Здесь не по теме, но вы можете попробовать задать вопрос в разделе Рекомендации по программному обеспечению. - 26.05.2014

comment

См. связанные API в моем ответе здесь - stackoverflow.com/a/19976697/1256219 - brandall 01.06.2014

Ответы (1)

arrow_upward
2
arrow_downward

В настоящее время существует относительно новый сервис, который позволяет автоматически транскрибировать речь в текст, а также отличный веб-интерфейс для редактирования результатов человеком. Его:

https://trint.com/

Мы воспользовались им и остались довольны результатом. Транскрипция, конечно, не идеальна, но это отличное начало, и она допускает готовое человеческое редактирование.

Кроме того, теперь доступен новый API и сервис от IBM Bluemix/Watson. Вы можете попробовать бесплатную демоверсию здесь:

https://speech-to-text-demo.mybluemix.net/

Этот сервис неплохо справляется с преобразованием звука (с микрофона или из аудиофайла) в текст. В настоящее время, по крайней мере, в демоверсии кажется, что он не использует MP3, но будет использовать wav и другие форматы. Этот сервис имеет полный API и в первую очередь предназначен для встраивания в приложения.

user2330237 10.02.2017

comment

как это достигается? или как бы это было достигнуто в наши дни, с ML или? - oldboy; 05.05.2021

Преобразование речи в текст (распознавание голоса) непосредственно из аудио/транскрипции

Ответы (1)

Похожие вопросы