网站首页 > 教程文章正文

利用Python实现录音播放并翻译，真正的实时进行翻译

jxf315 2025-08-02 18:58:56 教程文章 76 ℃

文章目录

有了它，实现实时翻译还远吗？
一、还有3秒到达战场
二、效果展示
四、调用API接口的准备工作
五、开发过程详细介绍
（一）准备工作（二）开发1、界面部分2、音频录制部分的开发（2）record()方法的开发（3）stop_and_recognise()方法的开发3、实时语音识别部分的开发
五、总结

私信小编001即可获取大量Python学习资料

有了它，实现实时翻译还远吗？

一、还有3秒到达战场

最近，某水果手机厂在万众期待中开了一场没有发布万众期待的手机产品的发布会，发布了除手机外的其他一些产品，也包括最新的水果14系统。几天后，更新了系统的吃瓜群众经过把玩突然发现新系统里一个超有意思的功能——翻译

奇怪的翻译知识增加了！

相比常见的翻译工具，同声翻译工具更具有实用价值，想想不精通其他语言就能和歪果朋友无障碍交流的场景，真是一件美事，不如自己动手实现个工具备用!一个同声翻译工具，逻辑大概可以是先识别，而后翻译，翻译能否成功，识别的准确率是个关键因素。为了降低难度，我决定分两次完成工具开发。首先来实现试试语音识别的部分。

轻车熟路，本次的demo继续调用有道智云API，实现实时语音识别。

二、效果展示

先看看界面和结果哈：

可以选择多种语音，这里只写了四种常见的：

我分别测试的中文、韩文、英文。看着还不错哦~

这里翻译结果，是根据音频一个字、一个字这样实时识别的，由于识别速度比较快，所以看起来木有时间差。

四、调用API接口的准备工作

首先，是需要在有道智云的个人页面上创建实例、创建应用、绑定应用和实例，获取调用接口用到的应用的id和密钥。具体个人注册的过程和应用创建过程详见文章分享一次批量文件翻译的开发过程

五、开发过程详细介绍

（一）准备工作

下面介绍具体的代码开发过程。

首先是根据实时语音识别文档来分析接口的输入输出。接口设计的目的是对连续音频流的实时识别，转换成文本信息并返对应文字流，因此通信采用websocket，调用过程分为认证、实时通信两阶段。

在认证阶段，需发送以下参数：

参数类型必填说明示例appKeyString是已申请的应用IDIDsaltString是UUIDUUIDcurtimeString是时间戳（秒）TimeStampsignString是加密数字签名。sha256signTypeString是数字签名类型v4langTypeString是语言选择，参考支持语言列表zh-CHSformatString是音频格式，支持wavwavchannelString是声道，支持1（单声道）1versionString是api版本v1rateString是采样率16000

签名sign生成方法如下：
signType=v4；
sign=sha256(应用ID+salt+curtime+应用密钥)。

认证之后，就进入了实时通信阶段，发送音频流，获取识别结果，最后发送结束标志结束通信，这里需要注意的是，发送的音频最好是16bit位深的单声道、16k采样率的清晰的wav音频文件，这里我开发时最开始因为音频录制设备有问题，导致音频效果极差，接口一直返回错误码304（手动捂脸）。

（二）开发

这个demo使用python3开发，包括maindow.py，audioandprocess.py，recobynetease.py三个文件。界面部分，使用python自带的tkinter库，来进行语言选择、录音开始、录音停止并识别的操作。audioandprocess.py实现了录音、音频处理的逻辑，最后通过recobynetease.py中的方法来调用实时语音识别API。

1、界面部分

主要元素：


root=tk.Tk()
root.title("netease youdao translation test")
frm = tk.Frame(root)
frm.grid(padx='80', pady='80')

label=tk.Label(frm,text='选择语言类型：')
label.grid(row=0,column=0)
combox=ttk.Combobox(frm,textvariable=tk.StringVar(),width=38)
combox["value"]=lang_type_dict
combox.current(0)
combox.bind("<<ComboboxSelected>>",get_lang_type)
combox.grid(row=0,column=1)

btn_start_rec = tk.Button(frm, text='开始录音', command=start_rec)
btn_start_rec.grid(row=2, column=0)

lb_Status = tk.Label(frm, text='Ready', anchor='w', fg='green')
lb_Status.grid(row=2,column=1)

btn_sure=tk.Button(frm,text="结束并识别",command=get_result)
btn_sure.grid(row=3,column=0)

root.mainloop()

选择语言类型之后，开始录音，录音结束后，通过get_result()方法调用接口进行识别。

def get_result():
    lb_Status['text']='Ready'
    sr_result=au_model.stop_and_recognise()

2、音频录制部分的开发

音频录制部分引入pyaudio库（需通过pip安装）来调用音频设备并录制接口要求的wav文件，并调用wave库存储音频文件。

Audio_model类的构造：

    def __init__(self, audio_path, language_type,is_recording):
        self.audio_path = audio_path,					# 录音存储路径
        self.audio_file_name=''							# 录音文件名
        self.language_type = language_type,				# 录音语言类型
        self.language_dict=["zh-CHS","en","ja","ko"]	# 支持的语言，用于从UI出的类型转为接口所需类型
        self.language=''
        self.is_recording=is_recording					# 录音状态
        self.audio_chunk_size=1600						# 以下为一些接口所要求的录音参数，采样率、编码、通道等
        self.audio_channels=1
        self.audio_format=pyaudio.paInt16
        self.audio_rate=16000

（2）record()方法的开发

record()方法中实现了录音的逻辑，调用pyaudio库，读取音频流，写入文件。

    def record(self,file_name):
        p=pyaudio.PyAudio()
        stream=p.open(
            format=self.audio_format,
            channels=self.audio_channels,
            rate=self.audio_rate,
            input=True,
            frames_per_buffer=self.audio_chunk_size
        )
        wf = wave.open(file_name, 'wb')
        wf.setnchannels(self.audio_channels)
        wf.setsampwidth(p.get_sample_size(self.audio_format))
        wf.setframerate(self.audio_rate)

        # 读取数据写入文件
        while self.is_recording:
            data = stream.read(self.audio_chunk_size)
            wf.writeframes(data)
        wf.close()
        stream.stop_stream()
        stream.close()
        p.terminate()

（3）stop_and_recognise()方法的开发

stop_and_recognise()方法将Audio_model的录音状态标记为false，并启动调用有道智云API的方法。

    def stop_and_recognise(self):
        self.is_recording=False
        recognise(self.audio_file_name,self.language_dict[self.language_type])

3、实时语音识别部分的开发

有道智云实时语音识别接口使用socket通信，为简化展示逻辑，因此在此处发开了展示识别结果的界面，使用tkinter显示：

#输出结果的窗口
root = tk.Tk()
root.title("result")
frm = tk.Frame(root)
frm.grid(padx='80', pady='80')
text_result = tk.Text(frm, width='40', height='20')
text_result.grid(row=0, column=1)

recognise()方法根据接口文档，将所需参数拼接到uri，传给start()方法请求接口：

def recognise(filepath,language_type):
    print('l:'+language_type)
    global file_path
    file_path=filepath
    nonce = str(uuid.uuid1())
    curtime = str(int(time.time()))
    signStr = app_key + nonce + curtime + app_secret
    print(signStr)
    sign = encrypt(signStr)

    uri = "wss://openapi.youdao.com/stream_asropenapi?appKey=" + app_key + "&salt=" + nonce + "&curtime=" + curtime + \
          "&sign=" + sign + "&version=v1&channel=1&format=wav&signType=v4&rate=16000&langType=" + language_type
    print(uri)
    start(uri, 1600)

start()方法是实时识别部分的核心方法，通过websocket调用识别接口。

def start(uri):

    websocket.enableTrace(True)

    ws = websocket.WebSocketApp(uri,
                                on_message=on_message,
                                on_error=on_error,
                                on_close=on_close)

    ws.on_open = on_opend
    ws.run_forever()

在请求接口时，首先读取先前录制的音频文件，并发送：

def on_open(ws):
    count = 0
    file_object = open(file_path, 'rb')  #打开录制的音频
    while True:
        chunk_data = file_object.read(1600)
        ws.send(chunk_data, websocket.ABNF.OPCODE_BINARY)  #发送
        time.sleep(0.05)
        count = count + 1
        if not chunk_data:
            break
    print(count)
    ws.send('{\"end\": \"true\"}', websocket.ABNF.OPCODE_BINARY)

而后在通信过程中处理接口返回的消息，收集接口返回的识别结果：

def on_message(ws, message):
    result=json.loads(message)
    resultmessage= result['result']  #解析调用接口的返回结果
    
    if resultmessage:
        resultmessage1 = result['result'][0]
        resultmessage2 = resultmessage1["st"]['sentence']
        print(resultmessage2)
        #text_result.insert(tk.END, resultmessage2+'\n')
        result_arr.append(resultmessage2)

最后在通信结束后展示识别结果：

def on_close(ws):
    print_resule(result_arr)
    print("### closed ###")
    
def print_resule(arr):
    text_result.delete('1.0',tk.END)
    for n in arr:
        text_result.insert("insert", n + '\n')

五、总结

有道智云提供的接口一如既往的好用，这次开发主要的精力全都浪费在了由于我自己录制的音频质量差而识别失败的问题上，音频质量ok后，识别结果准确无误，下一步就是拿去翻译了，有了有道智云API，实现实时翻译也可以如此简单

上一篇：频谱分析软件AudioTools使用教程
下一篇：音频工程师首选的音频分析神器分享给大家

网站首页 > 教程文章 正文