语音识别系统模板(10篇)

时间:2022-11-27 07:57:00

导言:作为写作爱好者,不可错过为您精心挑选的10篇语音识别系统,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。

语音识别系统

篇1

近年来国内教育信息化趋势更加明显,英语教学活动建立信息化平台是师生所需,改变了早期英语课堂模式的不足之处。语音识别是计算机翻译软件不可缺少的一部分,如图1,主要针对不同语言进行识别处理,帮助学生快速地理解英语知识内涵。语音识别技术主要包括:特征提取技术、模式匹配技术、模型训练技术等三大技术,也是系统设计需考虑的重点。

1)特征提取技术。一般来说,语音识别系统辅助功能涉及到收录、处理、传递等三个环节,这也是语音识别系统设计的关键所在。计算机语言与自然语言之间存在极大的差异性,如何准确识别两种语言的差异性,这是翻译软件识别时必须解决的问题。特征提取技术是语音识别系统的基本构成,主要负责对英语语言特征进行提取,向翻译器及时提供准确的语言信号,提高计算机翻译工作的准确系数。

2)模式匹配技术。语音识别系统要匹配对应的功能模块,以辅助师生在短时间内翻译出语言含义,避免人工翻译语言失误带来的不便。模式匹配技术采用智能识别器,由翻译器录入语音之后自主化识别、分析,减小了人工翻译语句的难度。例如,计算机软件建立匹配模型,按照英语字、词、句等结构形式,自动选择相配套的翻译模式,执行程序命令即可获得最终的语言结果,给予学生语音识别方面的帮助。

3)模型训练技术。设计语音识别系统是为了实现教育信息化,帮助教师解决英语课堂教学中遇到的翻译难题,加深学生们对英语知识的理解能力。语音识别结束之后,翻译器会自动执行模拟训练操作,为学生创建虚拟化的语音训练平台,这也是软件识别系统比较实用的功能。模拟训练技术采用人机一体化设计思想,把翻译器、语音识别器等组合起来执行训练方式,快速地识别、判断英语发声水平,指导学生调整语音方式。

2英语翻译器语音识别系统设计及应用

英语翻译器是现代化教学必备的操作工具,教师与学生借助翻译器功能可准确地理解英语含义,这对语音识别系统设计提出了更多要求。笔者认为,设计语音识别系统要考虑翻译器具体的工作流程,事先编排一套符合翻译软件工作的方案,如图2,从而提高人机语言转换速率。语音识别系统设计及应用情况:

1)识别模块。语音识别方法主要是模式匹配法,根据不同翻译要求进行匹配处理,实现英语翻译的精准性。一是在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;二是在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

2)前端模块。前端处理是指在特征提取之前,先对原始语音进行处理,这是预处理操作的主要作用。语音识别系统常受到外界干扰而降低了翻译的准确性,设计前段处理模块可消除部分噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。例如,比较常用的前端处理有端点检测和语音增强。

3)声学模块。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学特征的提取与选择是语音识别的一个重要环节,这一步骤直接关系到翻译器的工作效能,对英语语音识别与学习有很大的影响。因此,声学模块要注重人性化设计,语音设定尽可能符合自然语言特点。

4)搜索模块。英语语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。本次所设计的搜索模块中,其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。

5)执行模块。实际应用中,语言识别系统凭借执行模块完成操作,对英语语言识别方式进行优化择取,以最佳状态完成英语翻译工作。目前,就英语教学中使用情况,听写及、对话系统等是语音识别执行的两种方式,充分展现了翻译器在语言转换方面的应用功能。(1)听写机。大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。(2)对话系统。用于实现人机口语对话的系统称为对话系统,英语翻译器中完成了人机对话、语言转换等工作,全面提升了翻译器操控的性能系数。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等,随着语音数据库资源的优化配置,对话系统功能将全面升级。

3翻译器使用注意事项

语音识别系统就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技。随着高校教学信息化建设时期到来,计算机软件辅助教学活动是一种先进的模式,彻底改变了传统人工教学模式的不足。翻译软件采用数字化元器件为硬件平台,配合远程互联网建立多元化传输路径,满足了英语翻译数据处理与传输的应用要求。但是,未来英语教学内容越来越复杂,翻译器语音识别系统承载的数据范围更广,学校必须实施更新翻译软件产品,才能进一步提升英语智能化翻译水平。

篇2

中图分类号:TP399 文献标识码:A文章编号:1006-4311(2012)04-0126-020引言

随着计算机技术的飞速发展,各种各样的应用层出不穷,其中使用语音与计算机程序进行交互成为了最近热门的研究方向。语音作为人类与计算机之间无形的连接方式,可以使人们方便、快捷地控制和使用计算机。语音识别技术是能够让原来非智能的计算设备理解人类思想的高科技技术,融合了信号处理、人工智能以及自动化等多学科、多领域的研究成果,是目前实现人工智慧的主要途径之一。

根据不同的分类标准,语音识别可分为不同的种类,例如依据识别对象的不同,可分为特定人语音识别及非特定人语音识别;又根据人类的讲话方式可分为孤立词识别、连接词识别以及连续语音识别。不同的识别系统虽然在语音识别过程中步骤相似,但根据不同系统的需求及特点其实现方式及具体细节是不同的[1]。

嵌入式技术的迅猛进步,使得语音识别技术的应用更加广泛,不再局限于实验室以及大型场合;其已经被嵌入各种移动设备,为人们对移动设备的操作方式提供了一种崭新途径和使用体验。本文就针对移动设备的特点,设计了一种面向非特定人的孤立词语音识别系统。

1语音识别的工作原理

原始的自然语音信号中不仅含有人体自身的声音信号,同样也包含了大量的杂音、噪声等混杂在一起的随机干扰信号,尤其作为移动、嵌入式设备被使用者随身携带使用,会有更多的环境噪声信号。针对大量噪声的数据计算以及嵌入式设备有限的计算资源,为保证系统的对自然语言的正确识别率,并且有效减少处理原始语音信号的大量数据密集计算,有必要研究语音信号的预处理技术,以期高效提取语音特征参数,并选取合适的压缩算法进行语音数据压缩,之后再进行语音的模式匹配[2]。

如图1所示,人本身的语音信号从语音录入设备进入后,将进行预处理、端点检测、特征提取,转换为可以对比的信号参数,然后将特征参数通过选取的特征匹配方法与参考样例库中的模板样例进行语言匹配,选择符合度最大的语言样例进行相应处理,得出识别结果。

2系统硬件设计

系统的硬件结构示意图如图2所示。

系统的处理核心采用了韩国三星公司的一款基于ARM 920T内核的S3C2440微处理器;此款处理器中的CMOS宏单元和存储单元采用了0.18um电子工艺,内部总线采用Advanced Microcontroller Bus Architecture(AMBA)新型总线结构,具备出色的全静态设计,利用了多项低功耗技术,系统架构精简,特别为价格和功耗敏感的应用而精心打造。除此之外,它特别为各种外设准备了丰富的中断处理资源,包括总计共有60个中断源(其中包括5个定时器硬中断,9个串口中断,24个外部中断,1个看门狗定时器,4个DMA,2个ADC,1个LCD,1个电池故障,1个IIC,2个SPI,1个SDI,2个USB,1个NAND FLASH口,2个视频口和1个AC97音频口),这些中断既可以使用电平/边沿触发模式进行外部中断的触发,也可以使用软件编程的方式改变边沿/电平触发极性,能够为紧急中断请求提供快速中断(FIQ)服务[3]。

系统工作时,人的语音信号经过MIC输入,并通过滤波、去噪等操作后,在S3C2440上执行语音特征提取、语音模式匹配算法,最终输出结果;系统中的USB接口可以方便系统外扩各种标准USB外设,以便使用语音识别结果进行各种设备控制。

3系统软件设计

3.1 Linux内核移植移植Linux内核一般分为几个固定的步骤,目前较为流行快速开发方法通常先在内核的处理器架构目录下,选择与目标开发板硬件结构最接近的并且各种配置较为完善的开发板目录作为移植模板。接着针对本开发板与目标开发板的硬件具体差别,进行对应的修改或使用前人的移植补丁进行升级。针对本开发板,我们使用了稳定的Linux-2.6.15内核进行移植,考虑到本系统的具体硬件配置,最后选择了SMDK2440开发板模板作为移植的目标开发板模板。在编译和配置内核前,建议使用menuconfig或其它配置工具对内核进行适当的裁剪,还可以进一步编写配置脚本。嵌入式Linux内核的裁减类似于PC上Linux内核的裁减,主要的工作是根据硬件和系统需求增添需要支持的模块,并除去无用的功能模块,以使Linux内核与目标硬件系统紧密相依,但要注意嵌入式Linux内核的特征是小、精、有效。内核的编译则通常是通过修改根目录以及其它子目录下的Makefile,以及在预编译前设置编译参数值时进行选定,或是使用编译工具[4]。

最后,使用make工具生成U-boot可以识别的uImage引导程序镜像文件。uImage镜像文件通过U-Boot引导程序从FLASH中取出并解压缩,装入内存后,Linux内核便取得系统控制权。

Linux内核移植的整个过程如图3所示。

3.2 系统软件设计整个系统软件结构如图4所示。面向终端用户的软件形势分为两种:web插件和普通的软件界面;web插件可以使用在浏览器中,方面用户控制网页浏览。下面是命令解析层Command layer,负责解释两种界面发送的命令,调用相应的程序接口并返回执行后的结果。功能模块Function modules主要封装软件API,负责提供各种常用的功能服务。控制模块Control modules负责管理和控制语音识别引擎,建立语音样例库以及调整语音设备引擎的内部参数,将来还可以加入新的语音模式匹配算法。再下面一层是统一APIs层,主要对核心语音识别引擎进行简单的API封装,同时预留了将来要扩展的功能接口,以便后续的功能升级和代码维护;最下面的就是核心语音识别引擎,主要提供模式匹配算法以及对底层系统级的控制功能。

3.3 语音识别算法本语音识别系统的识别任务主要为针对设备持有者的小词汇量孤立词的语音识别,功能较为简单,需要使用者进行一定量的训练后,系统对应建立语音样例库,然后针对每次的声音进行模式匹配即可,所以算法的重点在于模式匹配算法。综合计算性能需要、存储资源消耗以及价格成本考虑,目前流行的DHMM语言识别模型对本系统较为合适。DHMM模型是一种随机统计过程,通过大量的模板训练过程提取语音特征,可满足语音实时变化且识别实时性要求较高的应用场合。

本系统采用了当前性价比较高的Viterbi算法实现DHMM模型。Viterbi算法可以由如下公式描述[5]:

?啄t(i)=■p(s1,s2,…,st=si,O1,O2,…,Ot|?姿)

其中,?啄t(i)为被识别语音序列t时刻的最大概率密度;其中t时刻前经过的语音状态序列为s1,s2,...st,且t时刻状态为si,对应输出观察符序列为O1,O2,...Ot。

4结束语

人类与计算机之间的交流的方式经过了按键输入、键盘输入、手写输入以及触摸输入的阶段,但这已经不能满足人们对于便捷、快速输入的更高需求,而语音识别技术的发展和应用,使得人们看到了计算机输入的未来趋势。相信随着电子技术和信号处理技术的进一步提高,语音输入将会广泛应用于各种计算机以及嵌入式设备中。

参考文献:

[1]马莉,党幼云.特定人孤立词语音识别系统的仿真与分析[J].西安工程科技学院学报,2007,(03).

[2]邢铭生,朱浩,王宏斌.语音识别技术综述[J].科协论坛(下半月),2010,(03).

篇3

关键词 语音识别;中文识别;人工分词;控制系统

【中图分类号】TP311 【文献标识码】A

【论文编号】1671-7384(2014)02-0069-03

引 言

计算机如今如此普及,计算机发展速度完全超乎想象。但目前为止,真正具备与人交流功能的电脑还不存在。有这样一个图灵测试——让测试员与被测试者和一台机器在隔开的情况下,通过一些装置向被测试者随意提问。问过一些问题后,如果测试人不能确认被测试者30%的答复哪个是人、哪个是机器的回答,那么这台机器就通过了测试。可惜的是,如今情况下最好的成绩是由俄罗斯专家设计的“叶甫根尼”电脑程序,也只是达到了29.2%。

语音,是人与人交流的一种手段,也是人类交流和交换信息中最便捷的工具。退而求其次,要做到通过图灵测试,不如先让电脑通过语音作为引信来帮人类做事情。为了充分阐述语音识别这套系统的原理,本文将小范围重现语音识别原理。

对于语音识别之后,让计算机去理解人的意思,不可缺少的就是将文字信息转化为计算机能理解的内容。把计算机比作一个人手中拿着一本象形文字对照手册,身处上文说的图灵测试的房子中。而另一人则在房间外向此房间发送象形文字问题。房间内的人只需按照对照手册,返回手册上的象形文字答案即可。毕竟只需要让计算机懂得我们的意思,并非让计算机来帮我们去思考。因此,只要给予足够多的“稿纸、笔”以及足够大的“词典”即可。

这次我们对系统的研究使用的是C语言,由于并没有采用面向对象化的语言来编程,大部分程序使用的编程并没有向“类”里面填充“方法”的概念。这套系统硬件开发、硬件编程采用的是51单片机来实现,后期的处理则是在上位机通过钩挂系统钩子读取内存来实现。下面,我们将一步一步讲述构建这个系统的过程。

平台构建

如今,国外已经有很多成品语音识别系统,中文的语音识别控制系统也有很多的企业、教育科研机构在做相关的项目。不过这些研究却依然停留在初级阶段。因为中文是世界上最难学的语言,人来学习尚且如此,更何况人来教给机器去识别。

虽然如此,做语音识别首先要有一个平台来去搭建中文语音识别系统。第一步要做的便是将声音讯号转化为电讯号。这里采用一个高阻抗麦克风,作为音源进行声电转化。通常的麦克风是三个端子输出,分别是两个信号源和一个接地端。大部分的麦克风两个端读入的是相同信号,少部分高品质的则读入的是差分信号。

麦克风的输入是毫伏级别,类似空气声、干扰波都会使得输入的信号有噪波。因此,输入的两个端分别进行旁路电容滤波等操作,去除杂波。无源麦克风的输入电压过低,之后要将信号接入放大器,放大后的信号才能使得后续的操作中,模拟—数字信号转换器获得足够被感应的信号强度。

理论上讲,音频信号可以看作周期信号,按照傅立叶级数定理可知,任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示。因此,通过将音频信号进行傅立叶级数展开,去除杂波频段的波形即可得到优质波形。

而实践中,通过硬件操作步骤较为烦琐,软件分析需要时间较长,出于经济等方面因素考虑,本系统不采用傅立叶变换来实现识别音频特性,而采用比较法取波形相似度等方式进行识别。

语音识别

上文中的信号经过模拟—数字转换器转换成为了数字信号,接入处理器的IO接口线程中,此时,读入的信号会通过地址总线和IO端口读入。因此在硬件上,我们使用中断程序来进行信号预处理。

软件方面中断程序部分,仅需要将读入的IO数据以数组形式存放入内存即可。

声音有三要素:音高、响度、音色。读入的信号即每个时间点的声音感受器震动位置,我们可以通过电流接入到压片陶瓷上来还原声音,而如果我们要去分析音频则需要对照三要素下手。

响度即声波数组中的数值高低,为了让声波数组中的响度和预存的响度相同,我们通过统计整段中有效波形能量数值和与预存数组的能量数值做比例处理,使得响度和预存数组相近。

音高即声音的频率,频率的定义是:单位时间内完成振动的次数,是描述振动物体往复运动频繁程度的量。通过声波数组寻找相邻两点是否为相反数,即可寻找到过0点次数得到频率。这时,时间段的频率即可求出,间接可得到整段声音的频率。

我们发现,对音高进行频率化处理,同样也需要对预存数组进行频率化处理。因此,尽管我们可以去频率化处理提高识别精度,但相比对音频直接做响度匹配,所谓黑盒操作更易于分析和匹配。

汉语是由声母和韵母组成的,通过五声韵母和声母匹配,即可收集有限个声源。用这些声源和预处理的声音进行匹配,即可得出每个字的读音。

上述的程序段只是匹配所需要的函数,在外部需要循环来赋给数组对应指针位置才能实现,在对比中,如何确定开头是一个难点。因此需要对音频数据的开头做识别。在本系统中,采用读取5个相邻数据,如果连续的峰值高于30且持续了超过25毫秒以上,则判定这个时间点为数据的开始。

在系统中,虽然我们采用了去除抖动的算法,但声音音响处理过后,也会丢失一些精度,此处的算法若提高精度,则需要在前期处理做根据香农采样定理计算低通信道的最高大码元传输速率,进而做精确的采样以及还原,同时滤波采用更先进的算法来实现,这里只实现采样而不做精细讨论。

人工分词

中文,全世界有近20亿的人在使用。然而,中文的语法是世界上无章可循的语法之一。古人云:“句读之不知,惑之不解”,想要用中文交流,就必须知道如何断句。这样,才能正常地和人交流,才能清晰地理解对方的意思。

欲断句,先断词。让计算机来执行控制,而计算机处理的却是整个词组。前面步骤已经讲述了如何将语音识别成一个个的单字,识别成一个个句子。但是中文并不像英文,说“我是一个学生”这句话的时候不会像“Iam a student”这样中间有空格从而判断词组。这就需要我们对句子做一个特殊的处理——人工分词。

以“我是一个学生”为例,人类来理解这句话,他的意思就是“‘我’的职业属性是学生”。从这个例子可以看出,提取“是”这个动词为关键字,便可以将前后转变为赋值表达式的形式“我->职业=学生”。

优先提取出一句话的动词,是分词处理的关键。但并非每个动词都可以这样来操作,例如,“他鞠躬下台”,很明显“鞠躬”是个动词,“下台”也是一个动词;如果按照上文中所述,“他->鞠躬=下台”就会出问题。为了处理这个问题,我们引入现代汉语中及物动词和不及物动词的概念。将“鞠躬”、“下台”这种不及物动词和“打”、“吃”这样的及物动词分开。

当然,这需要字典来处理,借助现代科技的发展,一本电子版的现代汉语词典就可以解决这个问题,通过词库来查询每个词语的意思,从而抽离出动词。我们只需要设计不及物动词代表动作即可,这样就可以将信息存储成“他->动作=鞠躬&下台”。

若是英文,如此做便可以了。但上文说过,中文语法是世界上无章可循的语法之一。英文中设置了动词字典基本上就处理了大部分问题。可中文中会出现如下句子:“今天的比赛在大学生活动中心召开。”

人工模拟电脑来理解,副词可以修饰形容词、修饰动词,用副词来修饰试探:比赛可以“不比赛”不能“很比赛”,因此它不是形容词,而是动词,“我比赛你”这句话不通,因此是不及物动词;“活动”和“召开”也是同理,是不及物动词。因此这句话要理解成“今天->动作=比赛&活动&召开”。

但不能说“今天->动作=比赛&活动&召开”,很显然这句话真正的意思是“比赛->地点=大学生活动中心”。出现这个问题,核心原因就是计算机没有把“大学生活动中心”当作一个词,任何一本字典都不会去收录“大学生活动中心”这个词。

在中文分词中, 中科天玑出品了一套中文分词系统架构,加载头文件"ICTCLAS50.h"可以用头文件定义的命令#pragma comment读取它所提供的数据库(lib,"ICTCLAS50.lib")

执行过该程序段后,会将分词结果以test.txt的形式保存在硬盘中。

结 语

做完人工分词,基本上也就实现了读取用户所要达到的目的。这套系统贯穿底层到软件层,如果有可能甚至需要设计到云端。虽然局部的测试没有出现严重的错误,但由于时间原因,并没有做综合测试。

其中的一些理论和实践衔接的地方还存在着不足,一些算法也存在着改进的空间,但这些问题终将在以后得到解决。也希望这套系统能在最后的实践和发展中真正用于生活,从而提供更好的生活体验,为人们体验生活、享受人生做出贡献。

基金项目: 本文系北京市自然科学基金项目(4132009);北京市属高等学校高层次人才引进与培养计划项目(CIT&TCD201304120);北京市教委科技计划项目(KM201211232008)的研究成果。

参考文献

何嘉. 基于遗传算法优化的中文分词研究[D].电子科技大学,2012.

赵培. 中文语音识别结果文本分类的研究与实现[D].大连理工大学,2008.

曹卫峰. 中文分词关键技术研究[D].南京理工大学,2009.

龙树全,赵正文,唐华. 中文分词算法概述[J]. 电脑知识与技术,2009,10:2605-2607.

刚. 图灵测试:哲学争论及历史地位[J]. 科学文化评论,2011,06:42-57.

谭超. 学习型中文语音识别系统研究及实现[J]. 电脑开发与应用,2012,04:35-37.

胡宝洁,赵忠文,曾峦,张永继. 图灵机和图灵测试[J]. 电脑知识与技术,2006,23:132-133.

陈淑芳. 基于51单片机的教学实验系统的设计与开发[D].中国海洋大学,2011.

张文国. 中文语音识别技术的发展现状与展望[J].上海微型计算机,1998,35:46.

篇4

中图分类号 TP393文献标识码 A文章编号 10002537(2014)03006306

虽然自动语音识别(ASR)系统的研究已投入了大量的人员和资金,但是它还不能够像电话一样,作为日常生活的一部分完整地融入到人们的生活当中.其中一个最主要的问题就是自动语音识别系统在噪声和混响环境下,特别是二者混合环境下的识别性能过于低下[1].在大多数情况下,为获得可接受的识别性能,只能依赖于麦克风阵列的使用,即通过使用大量按照特定位置放置的麦克风来获取语音输入和空间信息.大量的ASR研究,使用麦克风阵列得到方向增益,以改善噪声与混响环境中获取信号的质量;采用模式识别技术中的谱减法来消除噪声和处理语音训练集与测试集不匹配问题[2].

在日常应用中,普通用户既不可能随身携带麦克风阵列也不可能精确地放置它们.目前,日常使用的麦克风是与双通道耳机相对应的,它能得到双通道语音信号,却不能得到复杂的空间信息.如果依然采用传统的信号增强方法(例如广义旁瓣抵消技术)来处理双通道信号,以作为语音识别系统的预处理端,那么噪声的消除反而会带来无法接受的语音失真.

谱减法[3]作为另一种消除噪声的技术,可以不依赖麦克风阵列获取输入信号,但是却存在三大缺点:(1)噪声估计误差过大导致噪声消除时语音失真;(2)增强后的语音中含有明显的“音乐噪声”;(3)混响未被处理.

为解决上述问题,本文基于双声道语音信号简单的空间特性,综合使用改进的广义旁瓣抵消空间增强技术和改进的谱减法技术作为语音识别系统的噪声消除和信号放大的预处理端,并基于HTK开发工具设计一个识别性能优异的语音识别系统.

1 系统描述

图1 系统结构

Fig.1 System structure

图1为本系统的整体构架.它由空间增强、谱减法模块和自动语音识别模块3个主要部分构成.

1.1 空间增强模块

因为空间线索是语音识别的主要部分和远场麦克风语音识别的组织焦点,在该ASR系统中,采用PASCAL “CHiME”[4]组织提供的双通道含噪语音信号,利用该信号简单的空间特性可以得到表现优异的噪声估计.

有许多经典的使用麦克风阵列的方法来放大目标信号,例如通过延迟求和方式的波束形成,自适应噪声消除(ANC)以及独立成分分析(ICA).它们使用麦克风阵列得到方向增益,以改善在噪声与混响环境中获取信号的质量.

1.2 噪声消除模块

通常的ASR系统在处理含噪信号时性能大幅度下降,因此,噪音消除是该系统中常见且必须的组成部分.当前主流的噪声消除技术可以分为3大部分.(1)使用时域滤波技术,例如维纳滤波和自适应滤波;(2)尝试还原原始语音谱的谱还原技术,例如谱减法[5]和参数减法;(3)为增强语音结构,有许多基于语音模型的噪声消除技术,例如基于谐波模型的噪声消除.然而,使用这些技术来获得噪声衰减和信噪比的改善,往往会造成语音失真.通常,越干净的噪声消除会导致越严重的语音失真,因此,研究设计一个针对复杂声学环境的ASR系统,在语音失真和噪声消除之间寻找一个平衡点,是非常重要的工作.

1.3 识别系统自适应

通过一些经典的空间滤波和噪声消除技术来处理麦克风阵列在真实环境中获取的声音信号,较直接采集含噪声音,具有更好的听感知质量.但是无论系统设计多么完备,获得的加强声音中依然会有噪声残留和语音失真的问题存在,它们能被正常人轻易的接受和识别,但是目前的ASR系统却不具备这样的能力.当前几乎所有的ASR系统都采用模式识别技术,当测试数据集接近训练数据集时,能够得到非常高的识别精确度.但是噪声残留和语音失真会导致测试数据集完全不同于“干净”的训练数据集,训练和测试不匹配的问题会直接导致ASR系统识别率的降低.

为解决这些问题,前人提出许多的方法,例如模型再训练和自适应,特征变换和归一化[67],建立环境模型和模型特征一体化技术将之使用在自动语音识别模块上,能起到良好的效果.

综合考虑到对上面所述三部分的分析,所有的模块都应该整合为一体,只有通过良好的语音信号预处理和完善的识别系统自适应,才能构架一个更优异性能的ASR系统.

2 系统设计

本文提出一个简洁而具有高鲁棒性的针对CHiME问题的ASR系统.首先,依据双通道信号的空间信息增强它们,然后采用改进的谱减法获得增强信号,作为ASR系统的输入,最终得到识别结果和关键词准确率.

2.1 改进的空间增强

由于存在混响问题,使用传统方法得到双通道信号的空间信息的有效内容非常困难.另外,如果采用传统的信号增强方法,例如基于广义旁瓣相消(GSC) 的波束成型,作为ASR系统的前端,那么噪音消除会带来语音失真[8],会极大地降低ASR系统的识别性能.语音失真是由GSC多路输入抵消器(MC)的窄带自适应滤波器导致的,它既无法良好地消除噪声,同时还消耗昂贵的计算资源.

图2 空间增强

Fig.2 Spatial enhancement

本ASR系统的前端,利用双通道语音信号的优势,移除了典型GSC里的MC模型,使得在空间滤波的同时尽量避免语音失真和降低计算负担(图2).该模块的主要任务是提取参考噪声,而不再进行噪声消除.

4 结论

本文针对语音识别这一交叉性强的学科,打破传统的语音识别系统局限于利用有限的技术,不断挖掘技术潜力,来达到提高性能的研究模式,提出了一种全新的综合性构架,并取得了实质性的成效;考虑到人类听觉的生理情况,结合空间增强层得出的无目标语言的参考噪声,对谱减法模块做了积极的改变.将去除噪声操作从空间增强层移动到了效率更高的谱减法层,将噪声估计移动到空间增强层,使得整个系统的分工更加明确,以降低耦合,提高鲁棒性;使用了倒谱均值归一化实现标准39维梅尔倒频谱系数,为语音识别模块加入基于最大后验概率的自适应训练,提高了训练效率和系统整体性能.

参考文献:

[1] 宋志章,马 丽,刘省非,等.混合语音识别模型的设计与仿真研究[J].计算机仿真, 2012,29 (5):152155.

[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.

[3] 张 满,陶 亮,周 健.基于实值离散Cabor变换的谱减法语音增强[J].计算机工程与应用, 2012,48(29):109113.

[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.

[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.

[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.

[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.

[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.

篇5

随着科技的发展,人们的操作模式从最初的按键操作到触屏操作,再到现在的语音操作,其越来越便捷,越来越人性化。语音操作的基础就是语音识别技术(Automatic Speech Recognition),简称ASR,其目标就将人类语言转换为计算机可读的输入。语音识别作为一门交叉学科,从产生到现在已取得了显著的进步,现在已逐步走向市场,并且人们预计,语音识别技术在未来10年将会应用于人们生活的各个领域。

根据发音人的不同,语音识别技术可分为特定人语音识别和非特定人语音识别两类,前者只能识别一个或几个人的语音,而后者则能被任何人使用。本文设计的多鼍坝镆羰侗鹣低尘褪粲诜翘囟ㄈ擞镆羰侗鹫庖焕啵其以嵌入式微处理器STM32F407为核心,采用ICRoute公司的LD3320语音识别芯片,并配以存储空间为16M字节的W25Q128芯片,能够实现2000个场景共计识别句100000条的语音识别操作。

1 系统整体结构

如图1所示,整个系统主要是由STM32F407处理器、LD3320语音识别芯片以及W25Q128Flash芯片构成。其中STM32F407处理器用于切换场景和场景关键词更改;LD3320语音识别芯片用于语音识别,W25Q128Flash芯片用于存识别句,两种都是通过SPI总线与处理器相连。整套系统与外部其他系统则是通过串口进行通信。

2 系统硬件介绍及存储空间设计

2.1 系统硬件介绍

2.1.1 STM32F407ZGT6处理器

STM32F407ZGT6采用Cortex_M4内核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3个SPI、6个串口等。基于其强大的配置,所以本系统的处理器选用该芯片。

2.1.2 LD3320语音识别模块

LD3320语音识别模块是ICRoute公司的一款产品,其特有的快速而稳定的优化算法,能够完成非特定人语音识别,识别准确率高达95%。该模块每次最多可以设置50条候选识别词或识别句,只要单个词或句长度不超过10个汉字和79字节的拼音串,同时我们可以对识别内容动态编辑。模块的通讯方式有并行和串行两种,根据需求的不同可以选择不同的通讯方式。除了语音识别这一功能之外,模块还支持MP3播放功能,只要MCU将MP3数据依次送入芯片,就能够从芯片的PIN引脚输出声音。

2.1.3 W25Q128Flash芯片

W25Q128是华邦公司推出的大容量SPIFLASH产品,容量为128Mbit,即16M。该芯片将16M空间分为256块,每块64KB,每块又分为16个扇区,每个扇区4KB。由于W25Q128的最小擦除单位为一扇区,也就是说每次擦除4KB。

2.2 存储空间设计

由于W25Q128芯片每次擦除的单位为4KB,而每句识别语句至少有80字节,一个场景有50句识别语句,所以一个扇区用于一个场景是不够的,因此我们将两个扇区划为一个场景;图2是单个场景数据存储关系图,图中每个场景占8192字节,每条识别语句占100个字节,其中第一个字节为识别语句编号,范围为1-50;单个场景的第一个扇区可以存储40条识别语句,第二个扇区可以存储10条识别语句,其中第4000B-4096B和5096B-8190B保留,不存储数据,整个场景的最后两个字节用于存储场景编号,范围为1-2000。W25Q128共有4096个扇区,理论上可以划分2048个场景,但是我们只划分2000个场景,也就是4000个扇区;还剩下96个扇区,剩下的第1-50扇区用于存放每个场景的相关信息,计算可以得到每个场景有1KB的存储空间,然后我们将最后一个扇区的最后两个字节存储现在所在场景编号,剩下的空间保留。

3 系统软件设计

3.1 通讯协议格式设置

整个系统主要具有场景切换和场景识别语句存取功能,表1是部分对应协议格式。

3.2 初始化函数及操作函数介绍

STM32处理器与其他各个模块建立通信连接,除了连接好对应IO口后,还需要对各个IO进行初始化,这样才能进行数据的收发,以下是主函数中相关初始化函数:

NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先设置系统中断优先级分组

delay_init(168); //初始化延时函数

LED_Init();//指示灯初始化

KEY_Init();//按键初始化

IWDOG_Init();//看门狗初始化

USART1_Init(9600);//初始化串口1

W25QXX_Init();//W25Q128初始化

LD3320_Init();//LD3320初始化

while(W25QXX_ReadID()!=W25Q128) //检测是否存在W25Q128

{

LED0=!LED0; //如果检测不到W25Q128指示灯1会不停闪烁

篇6

中图分类号:TN912.34 文献标识码:A 文章编号:1007-9599 (2012) 11-0000-02

随着人们对人机交流技术的要求越来越高,语音识别技术应运而生。语音识别是将语音信号转换成相应文本的高技术,是一种重要的人机交互技术[1]。在近二十年,越来越多高水平的研究机构和企业加入到语音识别的研究领域,并开始向市场上提品。其中具有代表性的产品有微软的Whisper系统,Google的Word Search系统,苹果的Siri系统等。

语音识别最重要的性能指标就是识别率,而识别率十分依赖特征参数的训练和识别模型。常用的模式匹配和模型训练技术主要有动态时间归整算法和隐马尔可夫算法。文中就这两种算法特点进行了分析和改进,对基于改进后的算法建立的语音识别系统进行了性能评估和对比。

一、语音识别算法

(一)动态时间归整算法

发音具有随机性,同一个人在不同时间,不同场合对同一个字的发音长度都不是完全一样的。在语音识别的模版匹配中,这些长度不一的发音将降低系统的识别率。为了解决这一问题,我们引入动态时间归整算法(Dynamic Time Warping,DTW)。在语音识别中,DTW算法是较早出现,较为经典的算法,它是基于动态规划(DP)的[2]。

提取参考语音信号的特征参数存入特征模板库建立参考模板,提取待识别语音号的特征参数建立测试模板。DTW算法就是计算参考模板和测试模板各帧矢量之间的距离之和,总距离越小说明相似度越高,最后选取最小的总距离作为匹配结果。

这种识别算法虽然较为简单、有效,但是计算量大,存储空间占用多,响应时间长。因此,文中对该算法进行改进,以避免以上缺点。

改进后的DTW算法将归整函数限制在一个平行四边形中(其中两条边的斜率为1/2,另外两条边的斜率为2)。在计算总距离时只需计算平行四边形之内各交点的匹配距离和累积距离,这样减少了计算量,提高了系统的反应速度,节省了存储空间。

(二)隐马尔可夫算法

隐马尔可夫模型是在马尔可夫链基础上发展起来的一种语音信号统计模型,自从用来描述语音信号后,该模型迅速发展,使得HMM理论逐渐成为语音研究中的热点,语音识别的主流技术。

隐马尔可夫模型HMM是一个双重随机过程,一重是可直接观测的马尔可夫链,用于描述状态的转移;另一重是隐含在观察序列中的随机过程,用于描述状态和观察值之间的统计对应关系。

将HMM用于语音识别系统前,必须解决三个基本问题[3]:

1.模型评估

已知一个观察序列和一个HMM模型,如何计算由此模型产生此观察符号序列的输出概率。

2.最优状态序列搜索

已知一个观察序列和一个HMM模型,如何确定一个最佳状态序列,使之产生的观察序列的概率最大。

3.模型训练

已知一个观察序列和一个HMM模型,如何根据观察序列来确定模型的参数。

针对以上三个问题,可分别用前向-后向算法,Viterbi算法和Baum-Welch算法改进,改进后的HMM算法较传统算法在识别率方面有了明显的提高。

(三)算法比较

基于模版匹配技术的DTW算法和基于随机过程理论的HMM算法是比较有代表性的孤立词识别算法。DTW算法应用动态规划的方法解决了语音信号特征参数序列时间对准问题,克服了语速的差异。DTW算法适用于训练样本较少的情况下,训练过程简单,识别过程较复杂,多用于特定人孤立词语音识别系统。

HMM算法HMM运用状态序列描述观测向量的时间逻辑,通过多变量混合高斯分布表现观测向量序列的空间分布[4]。为了获得高识别率,HMM算法需要大量的训练样本和存储量,训练过程要耗费较多时间,识别过程较简单,多用于连续大词汇量语音识别系统。

二、系统设计实现

语音识别系统由预处理、特征提取、模型库和模式匹配等四个基本单元构成。系统的基本结构如图1所示:

(一)预处理

通过话筒将语音信号变成电信号输入到语音识别系统中。首先对信号进行一系列的预处理,包括采样、量化、加窗、端点检测、预加重等。

采样和量化就是将离散信号分别在时间上和幅度上转化成离散形式。为了滤除低频干扰,提升信号高频部分,对信号进行预加重处理。由于系统对信号的处理都是以短时为前提的,这就要将信号分割成许多语音段,即对语音信号分帧、加窗处理。原始语音信号往往包含无音段和有音段,端点检测就是运用数字处理技术来判断各语音段的起点和终点,从而找到有用的语音成分。文中使用基于短时能量和短时平均过零率的检测方法判定语音信号的起始点和终止点,即双门限比较法。

(二)提取特征参数

经过预处理的语音信号中并不是所有信息都是有用的,这就需要将语音信号经过一次变换,去掉冗余部分,提取代表语音本质的特征参数。文中采用近年来运用比较广泛的Mel频率倒谱参数,先将频谱转变为美尔频标的非线性频谱,接着再转换到倒谱域上[6]。MFCC参数充分考虑了人耳的听觉特性,有很高的稳健性和抗噪性能。

篇7

市场变化提出新需求

搬迁至新物流中心

神田业务支持公司成立于1974年,当时与长崎屋合资,主要负责服装配送。该公司在日本最早引进了大型托盘输送机,曾一时成为业界热议的话题。2002年,3家分公司合并后统一命名为神田业务支持公司。

公司现任总经理吉林正和先生当时已经进入公司,他回顾公司的发展历程时说:“30多年来,公司经营的物流业务几乎都集中在服装领域,因此积累了丰富的服装物流经验。近些年,公司的物流设施及分拣设备等已开始老化,为此建设了新的物流中心。同时,为适应客户新的需求,我们准备配送服装以外的货物,因此决定引进语音识别系统。”

目前,习志野物流中心处理的货物以服装为主,同时也负责配送鞋类以及其他日用品,据说已接到约20家客户的业务委托。物流中心根据客户订单的要求进行分拣、贴标签等操作,然后向全国配送。

服装类商品主要来自中国大陆及台湾、越南等地,平均每天发送10万件左右,需要投入包括物流中心职员和小时工在内的50~60人从事物流作业,并根据业务量进行灵活调整。

适应市场变化

在公司的旧址茜浜,仓库内的主要设备除了大型托盘输送机外,还有自动分拣机。如果要继续使用这些设备,物流中心一层需要拥有2310平方米的面积,并且老化的设备也需要大笔资金进行维修,如此看来实属浪费。可以说,继续使用大型设备的外部条件发生了变化。

自动分拣机每小时的处理能力达2000件,这是人工作业望尘莫及的。如果不使用分拣机,根本不可能达到2000件/小时的处理能力,那么其他设备也都会闲置下来,其结果将是物流中心无法应对市场的变化。

神田公司经营策划室的松尾健太郎科长谈到:“考虑公司业务范围的变化,我们的方针是保证低成本的同时,新系统要能够应对市场的变化。”

这个新系统就是“语音识别系统”。

选择语音识别系统

耳、眼、手、口总动员

吉林总经理谈到:“在建设新物流中心时,神田面临的最大问题是建设资金,因此我们要控制初期投资。如果使用自动分拣机,至少需要2~3亿日元的资金,但我们的总预算只有1亿日元。而且还要求必须保证订单的交付时间。最终,我们选择了语音识别系统。”

除软件外,新物流中心引进的设备只有挂在腰间的便携式终端和耳机,共25套。包括基础系统改造在内,总投资共6000万日元。

实际上,神田公司从几年前就已开始研究语音识别系统,只不过一直没有对外公开。

新物流中心处理的货物仍以服装为主。通常,以箱(盒)为包装的物品是很容易处理的,数量统计也不易出错。但服装往往装在塑料袋中,既薄又轻,进行拣选操作时,如果工作人员一只手拿着无线终端,另一只手拿着塑料袋,不容易读取条码标签,又容易数错数量。此外,服装的一大特点是颜色、规格多,SKU多,因此,如果使用手持终端进行操作将非常费力。

现在使用语音识别系统,终端挂在腰间,解放了双手,操作人员可以用双手完成拣选作业。操作人员通过耳机得到系统指令的同时,可以立即回应,而不需要“看明细”、“按开关”的动作,能够集中精力进行拣选。

松尾科长说:“过去,物流现场的操作在很大程度上依赖于‘眼睛’,所有终端和明细单都必须用眼睛来判断,如果看错了。就会直接导致发错货。现在有了语音识别系统,其最大的魅力就是通过‘听’接受指令,用‘眼’和‘手’来确认,用‘说’来回应,让两手同时工作。这就是感觉器官的总动员。由此带来工作准确率和效率的大幅提高。”

这也是神田公司选择语音识别系统的初衷。

语音拣选解决方案在世界的发展

回顾历史,在上世纪90年代,日本有几家公司曾引进过语音识别系统,但由于当时的识别能力有限,结果半途而废。之后,经过改良的语音识别系统再度登场,尤其是在欧美物流界颇受欢迎,其中VOCOLLECT公司开始崭露头角。

特别值得一提的是,世界零售巨头沃尔玛把语音识别系统作为标准化配置的系统,在其世界各地的物流中心都在使用。早在3年前,日本国内的沃尔玛旗下的西友・三乡物流中心业也已引进了VOCOLLECT的产品。

此后,众多经销商的市场拓展行动终于开启了语音拣选的世界市场之门。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同时在东欧、南美也逐渐打开市场,目前年销售额近100亿日元,占世界同行业销售的80%。

承担神田公司语音系统建设项目的日本优利公司售后服务事业部矢岛孝安部长说:“人们往往认为只凭借声音并不十分可靠,但VOCOLLECT的产品解决了这一难题。其识别系统和硬件设备组成了堪称完美的系统。”

VOCOLLECT产品的特性

VOCOLLECT日本分公司总经理塞萨尔・西森介绍说,市场上的其他产品大多是把几家公司的终端和软件组合在一起,而VOCOLLECT则根据物流现场的实际需要,从硬件到软件都是自主研发的,具有非常实用的语音识别功能,能够用日语应答就是其一大特色。

如何确保语音识别的精度是使用中的关键问题。塞萨尔・西森总经理认为,要提高语音识别的精度是有前提的。语音识别的基本条件是“指定说话人”和“不指定说话人”,在日本,其他公司都选择了“不指定说话人”,唯独VOCOLLECT公司选择了“指定说话人”。塞萨尔・西森总经理指出,在被噪音环绕的物流和生产现场,“不指定说话人”的方式存在很多问题。

“不指定说话人”即任何人的声音都可能被确认。因为它忽略了每个人声音的差异,那么其识别能力自然低下,特别是在噪音大的场所,附近几个人同时作业,如果别人的声音一旦被确认。必将出现差错。

VOCOLLECT公司的“指定说

话人”的方式,是根据每个人所发出的声音的频率而设定的,具有声音识别功能。这在很大程度上提高了识别精确度。在实际操作中,只要改变用户名、输入ID号,就能够直接调出所需的信息,因此在登录系统后,其他工作人员也可以使用。

当然。每个工作人员初次登录时,都需要经过多次练习,登录加练习的时间大约在20-30分钟。因为设有语音矫正功能,经过几次练习,工作人员就可以熟练掌握。

此外,终端设备的坚固性也非常突出,即使跌落地面,或被踩、被压,都能保持完好无损。这给工作人员带来安全感,可以全神贯注地投入拣选工作。

构建并起用系统仅耗时3个月

神田公司选择日本优利推荐的VOCOLLECT公司的语音识别系统之前,已对该系统的结构和实用性做了全面、细致的调查和论证。

吉林总经理说:“因为我们是首次使用语音识别系统,因此必须进行全面的考察。在考察3家日用品批发商使用该系统的效果时,我们发现该系统不仅能用于分拣,还能用于盘点。这也是我们选择它的一个重要原因。事实证明这个系统是完美的。”

接下来的系统设计,神田公司仅给优利公司和VOCOLLECT公司3个月时间。在此期间,神田为了让员工尽快进入状态,在现场进行实地演示。2008年8月15~16日,公司在搬迁的同时安装新系统,18日就开始正常发货了。

下面介绍语音识别系统的实际应用。

货物初次分拣

1、2、总体分类

语音识别系统主要应用于服装的发货流程。

图1、图2是位于物流中心二层的存储区。每天上午,操作人员根据发货指示,首先进行总体分类,即把当天需要发的货按款式分别集中在台车上的纸箱中。这里的拣选作业是对照产品明细进行的。

3 二次分拣

在相邻的拣选区,货物按照店铺别进行分拣。在图3中,左边是使用手持终端进行扫描,右边是使用语音识别系统进行拣选。

4、5手持终端+输送机

总体分类完成后,把纸箱放到输送机上,按发货店铺的不同,用手持终端逐一进行扫描。

因为每件货物和产品明细都要进行扫描,因此排除了款式错误的可能。但因为是单手作业,尤其对于较薄的服装,产品数量容易弄错。偶尔也会发生无法读取条码标签的情况,或者标签被翻转放置,此时操作起来相当费力。

6、7、台车+手持终端

图6是台车分拣区。台车底层放置了4个空周转箱用于调节高度,上层的4个周转箱分别代表4个店铺,操作人员同时处理4家店铺的货物,操作非常快捷。当然。通道,必须留有足够的宽度,以保证台车通过。

使用语音识别系统进行拣选

8~11 语音识别拣选

前面提到的输送机传送来的周转箱到达此处,按照发货店铺的不同依次进行拣选。此时操作人员通过耳机接收指示,用麦克进行回应,在“是”、“下面”的应声中进行分拣作业。不仅双手可同时操作,并且不需要看手持终端显示的数据,只需用眼睛确认发货明细上的代码即可。

操作人员听到的是什么样的指示呢?是商店代码、货物代码以及拣选的数量等,速度很快,听到指示后必须立刻做出回应。按照操作人员的话说:“声音的节奏逐渐变快,我们已经习惯了这样的速度。”由于每个人的听力和反应速度存在差别,物流中心根据这一差别安排操作人员的岗位。

操作人员做出回应后。下面的指示随即就到。在这种快节奏中,几乎没有等待指示或闲下来的时间。

塞萨尔・西森总经理说:“如果是使用手持终端,必然存在等待指令的时间。使用语音识别系统后,节省了操作时间。一旦有空闲的时间,操作人员反而会不习惯。”

VOCOLLECT的设计中包含了劳动心理学原理,因为操作人员的腰间携带了便携终端,每个人可以调节适合自己的速度。

系统投入使用后,操作人员的熟练程度不断提高,人均处理能力由原来每小时200~300件提高到500~700件。

此外,夏装和冬装有所不同,操作效率也存在差别,但结果却比预期提高了50%。

12、13、不同商店的发货明细及标签

根据语音指令做好的发货明细上,标有货物代码和商店代码,暂时贴在货箱的外面(图12),待货箱装满后,再把发货明细放入箱中,然后把箱子放到输送机上。

14、检验

通过语音识别系统拣选的货物。因为没有读取条形码,因此在包装前需要检查一遍。数量少时只要确认条形码即可,数量多时全部都要进行检验。

15、无线传输

通过2.4GHz的无线电波频率,无线终端与服务器联网后,进行数据交换。

16、充电

在办公室一角的架子上,放置了25台充电器,以便为终端进行充电。每次的充电过程需要8小时。

17、语音系统的管理

在同一办公室内设置了语音系统的管理器。画面上显示的是神田公司的WMS与合作公司VOCOLLECT的管理过程。

贴标签、包装、发货

18、19、贴价格标签、过检针

贴价格标签、过检针的操作也在物流中心二层完成。

20、21、搬运发货箱

货箱打包完毕后码盘,托盘货物用叉车搬到垂直输送机,送往一层出货区。

22、23、装车

在出货口,货物装上卡车,送到各店铺。

目前,像这样成功应用语音识别系统的案例在日本还不多见。吉林总经理对于初次引进语音识别系统是这样评价的:对于习惯了以往传统分拣方法的操作人员来讲,他们完全没有不适应的感觉,反而更喜欢现在极富节奏感的作业。

篇8

中图分类号:TN912.34

当噪音引起连续语音信号失真时,提取的连续语音特征曲线也会在时域和频域内失真[1]。如果用带噪特征去匹配纯净语音的特征模型,会造成带噪特征与模型之间的不匹配,这就导致了识别率的下降。

在连续语音识别中为了减少上述不匹配的问题,有三种主要解决技术。一是多条件或者多类型的训练方法,也就是使用带噪数据来进行训练[2]。虽然这个方法能够在特定的噪音环境下可以得到较好的识别精度,但是如果噪音环境发生变化识别精度还会急剧的降低。换言之,如果待识别数据与模型数据的条件(环境)不同,如:信噪比或者噪声类型,在待识别数据和模型之间仍会存在不匹配的现象。二是采用自适应模型方法[3],通过自适应模型来减少不匹配的问题。这种训练模型方法同时使用纯净和噪音数据来进行训练,这又会导致模型的区分度不高,同样会是识别精度下降。三是采用特征归一化方法,这种方法虽然不能从根本上改变待识别特征与模型之间的不匹配,但是在一定程度上会保留模型的区分度并减少由于环境变化导致带噪语音失真的影响。本文主要研究第三种方法。

语音增强和特征补偿方法以恢复语音特征为目的,但是特征归一化方法只是对语音特征的某些统计信息进行改变,并期望由此减少噪声引起的失真。不论是语音补偿还是特征补偿,都需要改变语音的特征向量,而传统的归一化方法只是对语音特征统计信息的范围进行处理,提出的算法在保证原有语音统计信息的前提下,适当改变部分语音特征向量。从而减少由噪音引起的语音特征曲线的失真。

动态范围调整方法属于归一化方法的一种,能够对干净和带噪语音的特征统计信息处理到相对较小的一个范围内。归一化方法能够根据一些模板值减少噪音特征在统计信息上的影响。相比使用归一化方法之前,在干净语音特征和带噪语音特征之间的不匹配部分会显著减少。语音增强一般应用在时域和频域中恢复语音特征的质量。特征补偿方法通常应用在加强连续语音系数在对数滤波阶数和频谱域使用。

减少待识别语音特征和模型的不匹配的方法虽然不是提高语音识别鲁棒性的唯一方法,但却是一种很有效的方法。通过这种方法可以减少待识别特征和模型之间的不匹配使得识别性能得以提高。

1 噪音对孤立词语音数据的影响

加法性噪音和乘法性噪音是影响语音信号最普通的两种噪音类型。例如:加法性噪音包含背景噪音,交通噪音,等等。乘法性噪音主要是传输过程中产生的信道失真。例如麦克风自身的噪音,房间的反射噪音等等。干净的语音信号首先被信道失真所干扰,进一步被加法性噪音干扰。

包含噪音的频谱可以用如下公式描述:

噪音干扰在增益部分和直流分量部分的影响是不同的,如图1所示:在孤立词识别中,很多实验表明使用DRA方法对加法性噪音和乘法性噪音都具有很好的性能。

图2展示了噪音影响在孤立词中的性能。在图2中,有两条不同的特征曲线,曲线表示了干净语音和10db信噪比的噪音特征在第二项MFCC中。者两条曲线来源于同一个语音数据。

然而,由于噪音严重的影响,噪音下的MFCC特征曲线的动态范围要小于干净语音的MFCC特征曲线的动态范围。如果使用干净语音特征建立HMM训练模型,能够获得理想的模型并在同等条件下获得更高的识别率。但是对噪音下的语音识别,由于上述的原因,自动语音识别系统无法在任何噪音下获得正确的识别结果。虽然DRA归一化方法能够在孤立词识别中获得较好的识别结果,但直接用于连续语音识别并不是特别的理想。

图2展示了在孤立词中不匹配的峰值。DRA归一化方法算法使用最大值的方法将频谱系数范围标准化到一个统一的范围。在每个维度,DRA方法将干净或者带噪语音频谱系数的动态范围调整到同一个标准范围中。但在孤立词识别中,特征曲线中的峰值是有限的。归一化方法非常适用于孤立词识别。而连续语音识别特征曲线的峰值要远多于孤立词识别,归一化方法并不直接适用。

2 噪音对连续语音数据的影响

对连续语音特征曲线来说,不匹配的峰值随着语音特征曲线的增长而增加,语音特征曲线的动态范围随着噪音的增加而减少。因此简单的归一化算法不能有效适用连续语音识别。

我们的目标是缩小待识别噪音特征曲线与干净的语音特征曲线之间的差异。经过噪音鲁棒性方法和DRA方法,语音信号中的直流分量的不同得以减少,特征曲线中不匹配的峰值也得以减少。

基于前面提到的孤立词识别的归一化方法,我们可以假设噪音没有改变原有的特征曲线的统计顺序,也就是在语音特征曲线上会存在很多峰值,如第一高峰值,第二高峰值,等等。在连续语音特征中,全局的统计信息的匹配就在整个训练数据集中显得比较重要。一般来说,这些特征曲线上的峰值信息代表了元音的语音特征。随着训练量的增加,这些峰值信息一般会集中到相对稳定的区域。但实际上,噪音通常会改变特征曲线的统计顺序。如果能恢复部分特征曲线上统计信息的顺序,就能增加这些峰值的匹配几率。

虽然通过上述的图示可以看出通过归一化方法可以增加干净语音特征曲线和带噪语音特征曲线的拟合程度,连续语音特征曲线中存在较多的峰值,带噪语音特征曲线会改变一些峰值的统计信息,因此把归一化方法简单的使用到连续语音识别中无法达到如图的拟合程度。提出的算法可以尽最大可能恢复带噪语音的峰值统计信息。

使用DRA归一化能提高特征曲线的峰值匹配概率。孤立词特征曲线通常不含静音部分,但在连续语音中,语音之间存在由于思考或者换气产生的静音,在此部分仍然使用归一化方法在过渡位置会放大只有噪音的信号特征。这就导致了连续语音特征在此部分无法匹配。

根据上面的讨论,可以通过下面两步对特征曲线进行处理。

第一步:从连续语音数据中提取所有的短句子。

估计无音部分。连续语音包含许多无音部分和只有噪音的部分,因为这些部分不适合使用DRA。在下一步中消除连续语音特征曲线中各个动态范围的不平衡性。

第二步:把选取出来的短句子分成更小的片段,在每个片段中使用归一化方法。

如果片段的长度接近短句长度,导致识别结果与传统DRA方法接近,如果片段的长度特别小,则导致识别精度急剧下降。根据实验得到经验数据当片段长度为80帧时,识别精度最高。不同片段长度得到的识别结果如下图:

3 小结

在训练过程中使用大量的数据可以使各个音素的模型逐渐集中在某一个范围。对于测试数据来说,音素的范围很有可能与模型不在同一个范围内,待识别音素是有限的,不可知的。

使用噪音鲁棒性方法和DRA在建立区分度较高模型方法,这些鲁棒性方法在发音较短的孤立词识别中展现了良好的识别性能,并说明了这些方法无法直接在连续语音识别中的原因。

虽然在带噪语音特征曲线和干净语音特征曲线仍然有不匹配的峰值,需要指出的是,对比使用传统的DRA算法,减少了不匹配的峰值。由此可以看出,使用提出的算法调整带噪语音特征曲线可以增加峰值部分的匹配几率。使用该算法在干净和噪音环境下可以提高整体的识别性能。特别指出的是,提出的算法大幅提高了在噪音环境下的连续语音识别性能,根本原因就是相对于传统的DRA,选择了更合适的调整值,适当的放大了峰值。该算法在语音频谱系数的对数系数特征里也适用。

参考文献:

篇9

1 前言

新一代特种车辆的车载显控系统对复杂噪声环境下的语音控制(语音识别与语音合成)组件提出了新的需求,当前的车载显控系统需要具备语音采集、识别和合成输出的功能,而特种车辆在任务中的复杂噪声的污染会使许多语音处理系统性能急剧恶化。由于特种车辆的车载强噪声环境的特殊性,现有的商用语音识别模块产品均难以满足其环境的使用要求。

本文基于特种车辆对语音控制设计需求,针对特种车辆座舱(以下简称车载座舱)殊的噪声环境,进行车载座舱噪声环境下语音降噪组件设计,实现了语音信号的降噪处理,并采用商用的语音识别模块进行测试验证。测试结果表明,此方案在车载座舱环境下具有很好的降噪效果。

2 系统构成及工作原理

2.1 系统构成

车载座舱语音降噪系统由硬件平台和语音降噪软件两部分组成,具体如下:

2.1.1 硬件组成

基于Freescalei.MX6 Dual SOC平台的语音降噪模块、XFV5310语音识别与合成模块;

2.1.2 软件组成

OS为Linux,内核为3.14.52,嵌入式语音降噪软件。

2.2 工作原理

车载座舱语音降噪识别系统的工作原理为:当驾驶员启动语音控制功能时,i.MX6D语音降噪模块向XFV5310语音识别模块发送语音识别启动命令,音频采集模块开始采集驾驶员说出的带噪语音指令,经由语音降噪模块实时处理后,将降噪后的语音指令传送给语音识别模块,根据识别结果进行相应指令的操作响应,从而执行驾驶员下达的语音指令。图1所示为车载座舱语音降噪系统的工作原理框图。

如图1所示,车载座舱语音降噪识别系统的工作原理如下:

(1)带噪语音源获取有两种方式:

1.由音箱播放特种车辆真实任务过程中的车内环境噪声文件来模拟车载噪声环境,噪声强度通过分贝测试仪的读数控制;通过MIC说出语音指令;

2.读取事先录制的并按照特定信噪比叠加的.wav格式带噪语音指令文件。

(2)通过音频编解码芯片STGL5000将输入的模拟带噪音频进行PCM编码,并将数字带噪音频输出给语音降噪软件;

(3)语音降噪软件对数字带噪音频进行降噪处理,生成数字降噪音频。

(4)降噪音频存储文件和播放输出:

1.数字降噪音频输出给STGL5000进行PCM解码和DA转换,生成模拟降噪音频,通过2.0音箱播放并输入给XFV5310模块进行语音识别;

2.数字降噪音频数据存储为wav格式音频文件。

(5)语音降噪软件的串口通讯:

1.通过RS232调试串口控制车载座舱语音降噪组件的工作状态:开始工作、录音模式(开始录音、停止录音)、读取wav文件模式、停止工作,并实时显示组件的工作状态和语音识别结果;

2.通过RS232通讯串口,根据XFV5310串口通讯协议,控制XFV5310模块的工作状态(初始化、开始识别、停止)并接收回传的状态信息和语音识别结果。

3 系统软件算法设计

车载座舱语音降噪识别软件(以下简称CSE软件)运行在嵌入式Linux操作系统下,用于采集模拟带噪语音信号,对采集的数字带噪音频信号进行降噪处理,并将降噪语音信号发送给语音识别与合成模块进行语音识别,最后处理识别模块返回的识别结果。CSE软件主要完成初始化功能、语音录音功能、WAV文件读取功能、WAV文件存储功能、语音播放功能、语音降噪功能以及RS232串口通讯功能。CSE软件执行流程图如图2所示。

初始化模块主要完成RS232串口初始化、录音配置、语音播放配置及信号量初始化。

录音模块主要完成音频采集。由于规定语音指令长度最大为5S,在录音时判断录音时间是否达到5S或是否收到结束信号,如两者均未发生,则采集一个周期音频样本,并保存至带噪音频数组中,如此循环,直至收到录音结束控制信号或录音时间达到5S。

WAV文件存储模块实现将音频文件以.WAV格式存储。首先存储WAV文件头,主要完成WAV文件文件头数据初始化,并检查文件头每个字节的合法性,最后将检测合格的WAV文件文件头存储在.wav文件中,WAV文件头存储后将音频数据写在WAV文件头数据后。

WAV文件读取模块实现读取WAV文件文件头,对文件头进行解析,并读取WAV文件的音频数据。

音频播放模块主要实现将降噪处理后的音频数据实时地通过声卡播放出来,以做识别处理。由于在ALSA音频驱动中,对音频设备的数据访问以及音频数据的存储都是以周期为单位进行操作,所以在播放时要判断已经降噪处理但未播放的音频数据是否达到周期样本数,如达到则播放音频数据,其次还要判断录音是否已经结束,如果结束,判断是否还有音频数据未播放,如有则播放剩余的音频数据。

语音降噪模块对采集或从文件中读取的带噪语音进行降噪处理。首先采用可移动的有限长度窗口实现对带噪语音分帧加窗,分帧加窗结束后,将每一帧带噪语音分别进行短时快速傅里叶变换,然后实现带噪音频的降噪。实现SMSS降噪算法的基本思想是基于统计模型更新信噪比和当前帧噪声功率谱,根据带噪语音频谱中不同频带的信噪比,确定噪声的谱减因子,然后用带噪语音减去噪声和谱减因子的乘积,得到降噪后的语音。在信噪比更新方面,主要采取由先验信噪比和后验信噪比决定SNR的方法,在噪声谱估计方面基于统计模型的VAD方法。降噪处理后再进行短时快速傅里叶反变换(ISFFT),得到时域的降噪语音信号数据,按帧续进行逆分帧重排后得到降噪后的语音信号,最后进行存储为.WAV格式文件或者直接播放输出。

串口通讯模块主要实现发送识别请求,获取识别请求响应结果以及对识别结果解析。在语音播放之前,需要启动XFV5310开发板的识别功能,由识别启动模块发送语音识别启动命令,开发板收到命令帧后会判断此命令帧正确与否,并回传结果,识别启动模块接收回传数据。发送识别启动命令后,如果识别启动模块在5.5S内未收到XFV5310开发板回传,则默认识别开发板无反应,识别启动模块将退出等待。当语音识别启动后,XFV5310开发板将会在识别处理结束后将相应的识别结果回传给CSE软件。回传的数据以“帧”的方式封装后传输。识别结果解析功能是当语音降噪软件接收到XFV5310开发板的回传的识别结果,根据通讯协议对XFV5310开发板发来的识别结果解码。

4 系统测试验证

4.1 测试环境

车载座舱语音降噪组件的测试验证试验中,各模块间的交联关系如图3所示。

4.2 测试方法及结果

在车载复杂噪声环境下,特定信噪比(-5dB、0dB、5dB)的语音指令,未经降噪前语音质量差,指令模糊,商用XFV5310语音识别与合成模块对指令识别率低于65%。经过本文设计的车载座舱语音降噪软件处理后,系统的测试结果如表1所示。

4.3 测试结果分析

车载座舱语音降噪识别系统功能完整,语音录音、播放、WAV文件读取、存储、语音降噪处理等功能都能符合需方的功能要求;特定信噪比(-5dB、0dB、5dB)下的语音指令识别率能够满足需方规定的指标要求;语音降噪算法、降噪与识别的总耗时稳定,不会随着语音指令的增长而增加耗时,能够满足需方规定的指标要求。

5 结束语

特种车辆工作环境下的带噪语音经车载座舱语音降噪识别系统处理后的语音听感清晰,无明显失真,无明显噪声残留,且运行总耗时较少,能够满足车载环境下语音降噪需求,配合商用的语音识别与合成模块XFV5310组成的系统能够满足特种车辆在恶劣工作环境下的语音控制功能,将该系统与车载显控模块集成,满足需方的功能与性能指标要求,经过实际装车使用测试,证明本文设计的车载座舱语音降噪识别系统功能性、稳定性和可靠性均能满足特种车辆的使用要求。

参考文献

[1]Loizou P,Speech enhancement:theory and practice[M].1st ed.CRC Taylor and Francis,2007:6-7.

[2]宋知用.MATLAB在语音信号分析与合成中的应用[M].北京:北京航空航天大学出版社,2013.

[3]易克初,田斌,付强.语音信号处理[M]. 北京:国防工业出版社,2003.

[4] Israel Cohen and Baruch Berdugo: Speech enhancement for non-stationary noise environments,[J].Signal Process.,vol.81,no.11,pp. 2403-2418,Nov.2001.

[5] Israel Cohen:Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement,[J].IEEE Signal processing letters,vol. 9,no.1,January 2002.

[6] Israel Cohen.“Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging”[J].IEEE Transactions on speech and audio processing,vol.11, no.5,Sep,2003.

[7] Israel Cohen:Relaxed statistical model for speech enhancement and a priori SNR estimation [J].IEEE Trans. Speech Audio Process.,vol.13, no.5,pt.2,pp.870-881,Sep,2005.

[8]张雄伟,陈亮,杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社,2003.

[9]程塔,郭雷,赵天云,贺胜.非平稳噪声环境下的语音增强算法[J].西北工业大学学报,2010,28(5):664-668.

[10]蒋海霞,成立新,陈显治.一种改进的谱相减语音增强方法[J].理工大学学报,2001,2(l):41-44.

[11]孙杨,原猛,冯海泓.一种基于统计模型的改进谱减降噪算法[J].声学技术,2013,32(2):115-118.

作者简介

篇10

中图分类号:TN912.34 文献标识码:A

1语音识别技术

1.1语音识别技术简介

语音识别技术主要分为两类,一是语音意义的识别,一种是目标声识别。第一个被称为语音识别,它是根据声音的成词特点对声音进一步分析,主要应用在人工智能,人机对话和快速输入等领域。通过访问声音的特征,从目标语音中进行提取,该项技术可以区分多目标语音的种类,确定目标,主要用于战场目标识别领域,海上侦察系统,预警系统,军事声纳识别,车辆声音识别,火车预警系统,动物个体的语音识别和家庭安全系统等。

科技研究人员通过对语音信号处理技术进行深入的研究,结果发现:人的听觉系统的声音配合具有独特的优势,它能准确地提取目标的声音特征,准确地辨别声音的方向和内容分类,所以基于仿生听觉系统的目标声识别技术备受现代前沿科技的关注。针对目标声音识别系统的研究工作成为了现代语音识别技术研究的一个热门方向,不少科技研究人员正在积极探索先进可行的仿生学理论,特征提取技术和语音识别技术。

1.2语音识别技术的研究现状

语音识别技术主要是通过对监测数据的声音特性分析,得到声音特性的样本文件。语音识别技术是一种非接触技术,用户可以很自然地接受。但语音识别技术和其他行为识别技术具有共同的缺点,即输入样本的变化太大,所以很难完成一些精确的匹配,声音也会伴随着速度,音质的变化而影响到信号的采集和结果的比较。

在语音识别中,语音识别是最早也是比较成熟的领域。随着越来越多的应用需求,识别声音并不局限于语音识别,人们开始深入研究目标识别技术的非语音识别,该项技术已经参照了成熟的语音识别技术的一部分,但由于各自的应用环境和实际的音频特征之间的差异,该技术还存在一些差异。

1.3语音识别技术的实际应用

在民用方面,目标声音识别系统可以应用于门禁系统,网络安全,认证,智能机器人,动物语音识别,电子商务和智能交通等领域。在智能交通领域,利用来自车辆识别模型的运动音频信号,可以实现交通信息的智能化管理。在智能机器人领域,机器人目标声音识别系统可以作为机器人的耳朵,通过环境声音识别并确定声音的方位,然后再反应外界的声音,因此可以将其当作家庭自动化服务系统和安全系统。在动物的语音识别领域,可以根据害虫声特征来区分害虫种类,根据不同的害虫采取不同的措施。在网络应用领域,在关于各种在线服务支持的语音识别技术新项目开发中,可以提高网络的服务质量,给人们的生活带来方便。现在,美国,德国和日本都开了电话银行,语音代替原来的密码和使用印章,简化了工作服务流程,提高工作效率。

在军事上,目标声音识别技术来自于第二次世界大战,在探测敌人的炮火和潜艇时,起着重要的识别和定位作用。但由于计算机技术,信号处理技术,光电检测和雷达检测技术快速的发展,使声探测技术发展得十分缓慢。直到现代的战争,研发了使用于战争中的三维信息,全方位定向,反欺诈、欺骗、干扰和反侦察、监视,在隐身与反隐身的现代战争中为国家的国防事业做出了不可磨灭的杰出贡献。通过电,磁,光学和雷达探测技术和主动检测技术来完成侦察任务已经不能满足现代战争的需求。在武装直升机技术成熟的当代,隐形轰炸机和其他高科技武器都有了反射功率,抗电磁干扰,反辐射的功能,特别是快速发展的数字技术和计算机技术,迫使各国为了实现对目标的定位跟踪和噪声识别而重新开始研究被动声探测技术,关注声检测技术。在未来战争中,武器装备发展的一个重要趋势是智能化、小型化,一个重要的特点是具备目标识别的能力,并根据不同的对象使用不同的攻击方法。

2听觉系统

为了设计一个更精确的目标声音识别系统,越来越多的学者开始深入研究仿生学领域。通过研究发现,人类的听觉系统在声音的物理方面具有独特的优势,声音特征可以准确提取目标识别中声音的方向,种类和含量,而且还可以提高抗噪声能力,所以基于人基于语音识别技术的听觉系统已经成为目前的研究热点。

人类听觉仿生学是模仿人耳的听觉系统和生理功能,并通过建立数学模型,根据数学分析原理得到的听觉系统。它涉及声学,生理学,信号处理,模式识别和人工智能等学科,是一个跨学科研究领域的综合应用。该技术已在军事,交通,银行,医疗治疗的许多方面取得了重要应用,是人类实现智能生命的重要研究课题之一。

人类听觉系统的处理能力大大超过目前的声音信号处理水平。从人类听觉系统的心理和生理特点视角,许多研究人员对接听过程中的语音识别进行深入的研究。目前,许多学者提出了不同的听觉模型,这些模型大多是一些基于语音识别和语音质量评价系统的听觉模型,模拟人耳听觉功能的生理结构,这些应用处理方法大大提高了系统的性能。