Преобразование речи в текст (распознавание голоса) непосредственно из аудио/транскрипции

Должна быть возможность преобразовывать или транскрибировать аудио (например, из .MP3, другого аудиоформата), содержащее речь, в текстовые расшифровки с использованием алгоритма преобразования речи в текст (распознавание голоса) с высокой точностью. Существует множество доступных способов сделать это, которые становятся все более точными, но предназначены для речи, произносимой в микрофон устройства (например, Google Translate/соответствующий API для Интернета, приложение Dragon для iOS). Мне нужен способ напрямую передать аудиофайл в механизм распознавания речи/API. Не нужно воспроизводить звук через динамик и записывать его с помощью микрофона — это занимает много времени для длинных аудиофайлов и ухудшает качество звука и, как следствие, качество транскрипции. Существует ли веб-служба, API или код для этого? Есть ли какая-то оболочка вокруг одной из существующих служб, которая предполагает, что микрофон будет источником?

Спасибо


person user2330237    schedule 25.05.2014    source источник
comment
Здесь не по теме, но вы можете попробовать задать вопрос в разделе Рекомендации по программному обеспечению.   -  person    schedule 26.05.2014
comment
См. связанные API в моем ответе здесь - stackoverflow.com/a/19976697/1256219   -  person brandall    schedule 01.06.2014


Ответы (1)


В настоящее время существует относительно новый сервис, который позволяет автоматически транскрибировать речь в текст, а также отличный веб-интерфейс для редактирования результатов человеком. Его:

https://trint.com/

Мы воспользовались им и остались довольны результатом. Транскрипция, конечно, не идеальна, но это отличное начало, и она допускает готовое человеческое редактирование.

Кроме того, теперь доступен новый API и сервис от IBM Bluemix/Watson. Вы можете попробовать бесплатную демоверсию здесь:

https://speech-to-text-demo.mybluemix.net/

Этот сервис неплохо справляется с преобразованием звука (с микрофона или из аудиофайла) в текст. В настоящее время, по крайней мере, в демоверсии кажется, что он не использует MP3, но будет использовать wav и другие форматы. Этот сервис имеет полный API и в первую очередь предназначен для встраивания в приложения.

person user2330237    schedule 10.02.2017
comment
как это достигается? или как бы это было достигнуто в наши дни, с ML или? - person oldboy; 05.05.2021