Google Speech API на Python

Я пытаюсь создать систему на python, в которой звук передается из браузера клиента через сокетные соединения, а затем звук передается в облако Google для распознавания речи.

Это код для кода на стороне клиента:

<!DOCTYPE html>
<html lang="en">
    <title>Audio Streaming</title>
        var app = {
            socket: null,
            mediaTrack: null,
            counter: 0,
            bufferSize: 4096,
            config: null,
            main: function(){
                this.socket = new WebSocket("ws://");
            onSocketOpen: function(event) {
                console.log("Socket Open");
            onSocketMessage: function(event){
            shimAudioContext: function(){
                    window.AudioContext = window.AudioContext || window.webkitAudioContext;
                    navigator.getUserMedia = navigator.getUserMedia || 
                        navigator.webkitGetUserMedia ||
                        navigator.mozGetUserMedia ||
                catch (e) {
                    alert ("Your browser is not supported");
                    return false;
                if(!navigator.getUserMedia || !window.AudioContext){
                    alert("Your browser is not supported");
                    return false;
                return true;
            initRecorder: function(){

                return navigator.mediaDevices.getUserMedia({ "audio": true,"video": false}).then((stream) => {

                    var context = new window.AudioContext();
                    //send metadata on audio stream to backend

                    // Caputure mic audio data into a stream
                    var audioInput = context.createMediaStreamSource(stream);
                    // only record mono audio w/a buffer of 2048 bits per function call
                    var recorder = context.createScriptProcessor(this.bufferSize, 1, 1);
                    // specify the processing function
                    recorder.onaudioprocess = this.audioProcess.bind(this);
                    // connect stream to our recorder
                    // connect recorder to previous destination
                    // store media track
                    this.mediaTrack = stream.getTracks()[0];
            float32To16BitPCM: function(float32Arr) {
                var pcm16bit = new Int16Array(float32Arr.length);
                for(var i = 0; i < float32Arr.length; ++i) {
                // force number in [-1,1]
                var s = Math.max(-1, Math.min(1, float32Arr[i]));
                * convert 32 bit float to 16 bit int pcm audio
                * 0x8000 = minimum int16 value, 0x7fff = maximum int16 value
                pcm16bit[i] = s < 0 ? s * 0x8000 : s * 0x7FFF;
                return pcm16bit;
            audioProcess: function(event) {
                // only 1 channel as specified above.....
                var float32Audio = event.inputBuffer.getChannelData(0) || new Flaot32Array(this.bufferSize);
                var pcm16Audio = this.float32To16BitPCM(float32Audio);
            sendContext: function(rate){
                this.config = {
                    rate : rate,
                    language : "en-US",
                    format : "Linear 16"

        // app.main()


    <input type="button" value="On" onClick=app.main()>


Я получаю звук в байт-коде.

Теперь в моем коде Python я не знаю, как передать его в Google Cloud для распознавания голоса. Вот мой код на Python:

import asyncio
import json
import io
import websockets
import threading
import queue

def audioin(websocket,path):

    config = yield from websocket.recv()
    if not isinstance(config,str):
        print("Error, no conifg")
        yield from websocket.send(
                "error":"configuration not received as first message"

    config = json.loads(config)

    while True:
        data = yield from websocket.recv()

start_server = websockets.serve(audioin, "", 5000)


Как передать данные, полученные из WebSocket, в voice.SpeechClient (). Streaming_reconize () ???

person D14TEN    schedule 28.02.2019    source источник
ты получил на это ответ? У меня был рабочий прототип на основе   -  person Hari Sundararajan    schedule 10.07.2019

Ответы (1)

Взгляните на пример распознавания потоковой речи в Python.

Сначала вам нужно настроить SpeechClient. Затем вам нужно будет упаковать поток аудиоданных вашего веб-сокета в сообщения ProtoBuf.

person Lidi Zheng    schedule 06.03.2019