Должна быть возможность преобразовывать или транскрибировать аудио (например, из .MP3, другого аудиоформата), содержащее речь, в текстовые расшифровки с использованием алгоритма преобразования речи в текст (распознавание голоса) с высокой точностью. Существует множество доступных способов сделать это, которые становятся все более точными, но предназначены для речи, произносимой в микрофон устройства (например, Google Translate/соответствующий API для Интернета, приложение Dragon для iOS). Мне нужен способ напрямую передать аудиофайл в механизм распознавания речи/API. Не нужно воспроизводить звук через динамик и записывать его с помощью микрофона — это занимает много времени для длинных аудиофайлов и ухудшает качество звука и, как следствие, качество транскрипции. Существует ли веб-служба, API или код для этого? Есть ли какая-то оболочка вокруг одной из существующих служб, которая предполагает, что микрофон будет источником?
Спасибо