Page 17 - 网络电信2019年6月刊上

P. 17

软件设计通过此架构实现语音采集识别、多语音识别引擎
图 6 语音远程扩展模块硬件结构图 9 语音识别流程
切换、多模式交互控制与反馈、语音识别距离扩展等功能，下
面对此做具体介绍。
1.语音采集与识别
语言信息的采集与识别是本系统获取信息的主要途径，
也是软件必须要实现的核心功能，主要包括语音唤醒、语音识
别、语音合成等功能。本系统采用讯飞开放平台的语音识别
[8]
库进行声音到文字或指令的转换。语言信息采集和播放使用
WM8960，WM8960将外界声音利用高精度模数转换器(analog to
digital converter，ADC)转换为数字信号，随后软件将声音
[9]
的数字信息传入语音识别库即可获取到声音的文字信息。控
制板利用文字信息进行一系列逻辑判断，通过ZigBee网络对终
图 7 语音远程扩展模块

响导致延时甚至直接无法工作，导致用户体验变差 [12] 。另一种
常用的识别模式是离线语音识别，其使用本地的语音识别算法
进行语音识别，不需要经过网络，在速度方面快于云端识别，
但多样化与识别精度方面不及在线识别。
汲取两种识别模式的优势，本系统的设计采用一种创新模
式，自动切换两种识别模式进行识别。在网络情况良好时，优
先使用在线语音识别引擎；当网络出现拥堵时，自动切换至离
线语音识别引擎。随时保证用户命令能够成功识别。云端语音
识别引擎和离线语音识别引擎的自动切换是本设计的特点，两
者自动切换的软件实现过程如图10所示。采集语音数据后，根
据当时“ping”命令的网络延时情况，进行识别引擎选择:当网
端设备下发指令，终端设备接收指令后按照指令完成一系列动
络延迟较低时，选择云端语音识别引擎；当网络延迟很高时，
作，并反馈信息到控制板，控制板接收信息并通过声音和文字
的方式将信息呈现给用户。具体识别过程如图9所示 [10-11] 。采用离线语音识别引擎。考虑到网络可能在识别过程中突然拥
堵，因此，云端语音识别引擎在一段时间内没有返回识别结果
图 8 软件整体结构框图时，结束语音识别并使用离线语音识别引擎直接解析返回结
果，保证每次语音识别都能得到最优化结果。
图 10 多语音识别引擎切换流程图

2.多语音识别引擎切换
传统语音控制系统大多采用在线网络，基于云端语音识别
引擎得出识别结果，此识别模式提供多样化的语音服务和高精
度的识别结果，但需要接入网络，语音的识别可能受到网络影

网络电信二零二零年六月 23

12 13 14 15 16 17 18 19 20 21 22