当前位置:首页 > 资讯 > 正文

利用Python实现录音播放并翻译,真正的实时进行翻译

利用Python实现录音播放并翻译,真正的实时进行翻译

  • 有了它,实现实时翻译还远吗?
  • 一、还有3秒到达战场
  • 二、效果展示
  • 四、调用API接口的准备工作
  • 五、开发过程详细介绍
  • (一)准备工作(二)开发1、界面部分2、音频录制部分的开发(2)record()方法的开发(3)stop_and_recognise()方法的开发3、实时语音识别部分的开发
  • 五、总结

很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤
QQ群:961562169

最近,某水果手机厂在万众期待中开了一场没有发布万众期待的手机产品的发布会,发布了除手机外的其他一些产品,也包括最新的水果14系统。几天后,更新了系统的吃瓜群众经过把玩突然发现新系统里一个超有意思的功能——翻译

奇怪的翻译知识增加了!

相比常见的翻译工具,同声翻译工具更具有实用价值,想想不精通其他语言就能和歪果朋友无障碍交流的场景,真是一件美事,不如自己动手实现个工具备用!一个同声翻译工具,逻辑大概可以是先识别,而后翻译,翻译能否成功,识别的准确率是个关键因素。为了降低难度,我决定分两次完成工具开发。首先来实现试试语音识别的部分。

轻车熟路,本次的demo继续调用有道智云API,实现实时语音识别。

先看看界面和结果哈:

可以选择多种语音,这里只写了四种常见的:

我分别测试的中文、韩文、英文。看着还不错哦~

这里翻译结果,是根据音频一个字、一个字这样实时识别的,由于识别速度比较快,所以看起来木有时间差。

首先,是需要在有道智云的个人页面上创建实例、创建应用、绑定应用和实例,获取调用接口用到的应用的id和密钥。具体个人注册的过程和应用创建过程详见文章分享一次批量文件翻译的开发过程

下面介绍具体的代码开发过程。

首先是根据实时语音识别文档来分析接口的输入输出。接口设计的目的是对连续音频流的实时识别,转换成文本信息并返对应文字流,因此通信采用websocket,调用过程分为认证、实时通信两阶段。

在认证阶段,需发送以下参数:

参数类型必填说明示例appKeyString是已申请的应用IDIDsaltString是UUIDUUIDcurtimeString是时间戳(秒)TimeStampsignString是加密数字签名。sha256signTypeString是数字签名类型v4langTypeString是语言选择,参考支持语言列表zh-CHSformatString是音频格式,支持wavwavchannelString是声道,支持1(单声道)1versionString是api版本v1rateString是采样率16000

签名sign生成方法如下:
signType=v4;
sign=sha256(应用ID+salt+curtime+应用密钥)。

认证之后,就进入了实时通信阶段,发送音频流,获取识别结果,最后发送结束标志结束通信,这里需要注意的是,发送的音频最好是16bit位深的单声道、16k采样率的清晰的wav音频文件,这里我开发时最开始因为音频录制设备有问题,导致音频效果极差,接口一直返回错误码304(手动捂脸)。

这个demo使用python3开发,包括maindow.py,audioandprocess.py,recobynetease.py三个文件。界面部分,使用python自带的tkinter库,来进行语言选择、录音开始、录音停止并识别的操作。audioandprocess.py实现了录音、音频处理的逻辑,最后通过recobynetease.py中的方法来调用实时语音识别API。

主要元素:

 

选择语言类型之后,开始录音,录音结束后,通过get_result()方法调用接口进行识别。

 
 

音频录制部分引入pyaudio库(需通过pip安装)来调用音频设备并录制接口要求的wav文件,并调用wave库存储音频文件。

Audio_model类的构造:

 
 

record()方法中实现了录音的逻辑,调用pyaudio库,读取音频流,写入文件。

 
 

stop_and_recognise()方法将Audio_model的录音状态标记为false,并启动调用有道智云API的方法。

 
 

有道智云实时语音识别接口使用socket通信,为简化展示逻辑,因此在此处发开了展示识别结果的界面,使用tkinter显示:

 

recognise()方法根据接口文档,将所需参数拼接到uri,传给start()方法请求接口:

 

start()方法是实时识别部分的核心方法,通过websocket调用识别接口。

 

在请求接口时,首先读取先前录制的音频文件,并发送:

 

而后在通信过程中处理接口返回的消息,收集接口返回的识别结果:

 

最后在通信结束后展示识别结果:

 
 

有道智云提供的接口一如既往的好用,这次开发主要的精力全都浪费在了由于我自己录制的音频质量差而识别失败的问题上,音频质量ok后,识别结果准确无误,下一步就是拿去翻译了,有了有道智云API,实现实时翻译也可以如此简单