时间:2023-03-23 15:22:39
导言:作为写作爱好者,不可错过为您精心挑选的10篇语音识别技术,它们将为您的写作提供全新的视角,我们衷心期待您的阅读,并希望这些内容能为您提供灵感和参考。
中图分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02
1应用领域
如今,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。预计在不远的将来,语音识别技术将在工业、家电、通信、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
2发展历史
语音识别的研究工作开始于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技术(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
80年代语音识别研究进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。
90年代,人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也开始应用于语音识别,它和HMM模型建立的语音识别系统性能相当,在很多系统中还被结合在一起使用以提高识别率及系统的鲁棒性。小波分析也开始用于特征提取,但目前性能不理想,其研究还在进一步深入中。
现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。
3研究的热点与难点
目前语音识别领域的研究热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研究 、声学HMM模型的细化、说话人自适应技术、大词汇量关键词识别、高效的识别(搜索)算法研究 、可信度评测算法研究、ANN的应用、语言模型及深层次的自然语言理解。
目前研究的难点主要表现在:(1)语音识别系统的适应性差。主要体现在对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚,这必将阻碍语音识别的进一步发展。
4语音识别系统
一个典型的语音识别系统如图所示:
输入的语言信号首先要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。
语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,简单的说就是样本改变符号的次数,可以粗略分辨清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。通常识别参数可选择上面的某一种或几种的组合。
语音识别是语音识别系统最核心的部分。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大部分。声学模型用于参数匹配,通常在模型训练阶段按照一定的准则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式本质特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定准则进行匹配与比较,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言规则,它包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理则可以进行语法、语义分析。
声学模型是语音识别系统中最关键的一部分。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。
DTW是较早的一种模式匹配和模型训练技术,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已逐渐被HMM和ANN模型替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态可以观察到的符号数M(符号集合O)、状态转移概率A及描述观察符号统计特性的一组随机函数,包括观察符号的概率分布B和初始状态概率分布 ,因此一个HMM模型可以由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。
模型参数得到后可以用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段就是要计算每个模型产生观察符号序列的输出概率,输出概率最大的模型所表示的词就是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大减少了计算量,已经被广泛采用,关于它们的各种改进方法也被大量提出。
ANN在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大部分应用神经网络的语音识别系统都采用了BP网并取得了较好的识别效果。
将ANN与HMM结合分别利用各自优点进行识别将是今后的一条研究途径。二者结合的混合语音识别方法的研究开始于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习概率参数。
语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5总结
尽管语音识别技术已经取得了长足的进步,而语音识别系统也层出不穷,不断的改变人类现有的生活方式,但其比较成功的应用也只是在某些特定的领域,谈不上大规模广泛的应用。只有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高性能的、完整的计算机语音识别系统。
参考文献:
[1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.
[2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.
语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。
一、语音识别技术概述
语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。
广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。
二、语音识别的研究历史
语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。
1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。
60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。
进入90年代后,语音识别技术进一步成熟,并开始向市场提品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&;T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。
进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。
三、语音识别技术的发展现状
语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。
由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。
目前,AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。
我国的语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。
四、语音识别技术发展趋势
语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品的应用,如声控拨号电话、语音记事本等,基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好.
虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:
1.提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。
2.增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。
中图分类号:TP391.42 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02
近年来,随着科学技术的进步,语音识别技术的发展,通过语言操纵机器的梦想正在逐步变为现实。语音识别是语音信号处理的一个重要的研究方向,经过50多年的积累研究,尤其是近20年来,语音识别技术取得了显著进步,并且广泛应用于商业,比如苹果的siri系统。本文从语音识别的发展历史、发展方向来着重分析未来语音识别技术的发展趋势。
1 语音识别技术的发展历史
1.1 语音识别技术在国际的发展
早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的AT& T Bell实验室研发的Audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(LP)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80年代和90年代是语音识别技术应用研究方向的,HMM模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,Apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,Apple的Siri系统,微软的Phone Query (电话语音识别)引擎等。
1.2 语音识别技术在国内的发展
我国的语音识别研究工作虽然起步较晚,但由于国家的重视,研究工作进展顺利,相关研究紧跟国际水平。由于中国有不可忽视的庞大市场,国外对中国的语音识别技术也非常重视,汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是,国内研究机构在进行理论研究的同时,应注重语音识别系统在商业中的应用,加快从实验室演示系统到商品的转化。
现如今,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,语音识别技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。
2 语音识别技术的技术实现及困难
语音识别技术的实现方式是声音通过转换装置进入机器,而机器配有“语音辨识”程序,程序将得到的声音样本与数据库存储的样本进行比对,输出最匹配的结果,转化为机器语言,进而执行命令。真正建立辨识率高的语音辨识程序组,是非常困难而专业的,专家学者们研究出许多破解这个问题的方法,如傅立叶转换、倒频谱参数等,使目前的语音辨识系统已达到一个可接受的程度,并具有较高辨识度。
2.1 语音识别的技术实现方式
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,其中,最基础的就是语音识别单元的选取。
(1)语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种语音识别单元由具体研究任务的类型决定:
单词(句)单元在中小词汇语音识别系统中应用广泛,但由于模型库过于庞大,模型匹配算法复杂,实时性不强,所以不适合大词汇系统;
音节单元主要应用于汉语语音识别,因为汉语是单音节结构的语言,虽然有大约1300个音节,但无调音节共408个,相对较少,所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。
音素单元之前曾广泛应用于英语语音识别,也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成,把声母细化,虽然增加了模型数量,但是提高了易混淆音节的区分能力
(2)特征参数提取技术。特征提取就是对语音信号进行分析处理,把丰富的语音信息中的冗余信息去除,获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程,目前经常采用的特征参数提取技术是线性预测(LP)分析技术。基于LP技术提取的倒谱参数再加上Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱对人耳处理声音的模拟,进一步提高了语音识别系统的性能。
(3)模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(DTW),它在孤立词语音识别中获得了良好性能,但是由于对大词汇量以及连续语音识别的不准确,目前已经被隐马尔可夫模型(HMM)和人工神经元网络(ANN)所取代。
2.2 语音识别遇到的困难
目前,语音识别研究工作进展缓慢,困难具体表现在:
(一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难;(二)必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题;(三)语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用,需要有效地利用语言学、心理学及生理学等方面的研究成果;现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够,更无法应用于语音识别;语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。
3 语音识别技术的发展趋势
3.1 进一步提高可靠性
目前语音识别系统很难做到排除各种声学环境因素的影响,而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以,要应用现代技术智能化语音识别系统,以达到更好的识别效果;
3.2 增加词汇量
目前语音识别系统使用的声学模型和语音模型过于局限,需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合,减少词汇量对语音识别系统的限制;
3.3 微型化并降低成本
语音识别系统在商业上的用途相当广泛,利用先进的微电子技术,将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以缩减成本,更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由,使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。
4 结束语
21世纪,信息和网络飞速发展,信息和网络的时代已经来临,人与人之间的距离随着Internet和移动电话网的连接和普及变得越来越近,信息资源扩散的越来越迅速,人与机器的交互显得尤为重要。语音识别技术的研究和应用可以让人无论何时何地都可以通过语音交互的方式实现任何事,可以使人更方便的享受更多的社会信息资源和现代化服务,所以,如何将这一技术可靠的、低成本的应用于商业和日常生活,是语音识别技术的发展方向和趋势。
参考文献:
[1]刘钰.语音识别技术概述[J].计算机光盘软件与应用,2010:14-17.
[2]盛青.语音自动识别技术及其软件实时实现[J].西北工业大学,2001:45-47.
[3]廖锎.浅析语音识别技术的发展及趋势[J].科技传播,2010:34-36.
语音芯片的应用
近年来语音芯片应用越来越广泛,主要包括:
1.电话通信中的语音拨号。特别是在中、高档移动电话上,现已普遍具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。
2. 汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的门、窗、空调、照明以及音响等设备,同样也可以由语音来方便地进行控制。
3. 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。
4. 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。
5. 智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于语音芯片价格的降低。
6. 家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控制起来,这样,可以让令人头疼的各种电器的操作变得简单易行。
语音识别专用芯片系统有如下几个特点: 1. 多为中、小词汇量的语音识别系统,即只能够识别10~100词条。只有近一两年来,才有连续数码或连续字母语音识别专用芯片实现。2. 一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训练,这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别,即预先将所要识别的语句码本训练好而装入芯片,用户使用时不需要再进行学习就可直接应用。但这一类识别功能只适用于规定的语种和方言,而且所识别的语句只限于预先已训练好的语句。3. 由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回放(语音编解码记录)功能。4. 多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求。5. 除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。
语音识别技术发展
在发达国家各种各样基于语音识别技术的产品已经可以买到,如具有声控拨号电话,语音记事本等等。语音电话服务、数据查询服务也已经部分实现。基于特定任务和环境的听写机也已经进入应用阶段。语音识别技术是非常重要的人机交互技术,有着非常广泛的应用前景。
说话者自适应技术近年在语音识别系统的研究中也备受重视,这是由于与人有关的语音识别系统比与人无关的语音识别系统的识别率要高很多。通过有效的自适应手段可以很快地提高系统的识别能力。实际上说话人自适应技术和稳健语音自适应技术是相通的。由于不同的说话人在声道长度,说话口音方式都很不一样。说话者自适应技术也主要是从以下两方面着手。
静态处理方法。从特征提取或训练阶段就尽可能减少来自说话人的变化因素对模型的贡献。可以进行声道参数的归一化处理或对说话人进行分类处理,如分男女声的识别系统就是其中的一个典型,但实际上仅仅从男女声上对模型分类还是太粗,可以通过有效的聚类方法进行分类。这类方法统称为声学归一化处理方法。
动态处理方法。对预先训练好的与人无关识别系统,通过临时得到的特定人语音数据对系统的模板或特征参数进行自适应修正,从而在原有系统基础上建立一个用于特定任务、特定环境或特定说话人的系统,这类方法统称为自适应方法。自适应方法可分为: 批模式、累进模式、即时模式; 按自适应学习策略又分为无监督学习和有监督学习。从用户使用的方便程度来看是由难到易,而算法实现则是由易到难。采用何种策略取决于应用背景,对识别率的要求等因素。对于听写机等应用来说,最具吸引力的是累进、无监督的自适应方式,也称在线自适应。
语言模型也是目前研究的一个重要方面。目前的语言模型是与任务有关的,典型的统计语言模型是通过大量任务特定的语料训练出来的。通过新闻语料训练出来的模型不能很好地工作于法律方面的文件语音识别。有几种方法用于解决这些问题。一种是使用自适应语言模型。在静态语言模型的基础上,通过一个高速缓冲存储器对语言模型进行动态的修正; 另一种是先训练多领域语言模型,然后通过混合高斯模型将这些模型结合在一起; 还有一种比较好的办法是使用大颗粒的语言模型,如基于类的语言模型,而不是基于词的语言模型,类可以是词性类,词义类,以及由一定的数据驱动的聚类算法产生的各种类。
由于不同词可以属于同一类,这样类比较大,构成的语言模型就比较稳健。其关键的问题是如何决定词的分类,由于词的分类比较复杂,同一词可能属于不同的类,特别是解决如何通过计算机实现自动分类的算法,即使用数据驱动算法也还没有很好地解决。基于统计技术的计算语言学已经越来越受到重视,它解决了单独规则语言模型不能解决的一些问题。当然统计语言模型也不能解决全部问题,因此如何把统计语言模型和基于规则的语言模型结合也是语言模型研究的重点之一。
目前不同快速语音识别算法都在开发中。其中包括对HMM状态输出的概率分布进行矢量量化,缩小搜索空间算法,减少计算机的内存需求方法,以及结合计算机结构特点的编程技术的应用。
与机器进行语音交流,让机器明白你说什么,这是我们长期以来梦寐以求的事情。而提起语音识别.我们最容易想到的还要数不会讲笑话的Siri。
作为世界上第一家上市的语音识别公司,Siri的“娘家”Nuance有着辉煌的历史,曾经在语音领域一统江湖。苹果iPhone手机的虚拟语音助手Siri、三星的语音助手S-Voice.各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手,都采用了Nuance的技术。近年来,Nuance的语音识别技术已经从实验室走向市场,将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
在智能车载领域,Nuance定制的汽车级语音平台Dragon Drive获得了201 5CES创新大奖,通过将车载平台与手机连接,Nuance可以帮用户实现语音控制GPS导航、信息收发、电话接打、社交网络更新等等。
在前一段时间,Nuance在其官方博客上,公布了将发力医疗领域的消息。消息中说,Nuance在医疗领域进军,不仅仅通过智能手表追踪运动情况和心率,还将会直接根据人的身体状况匹配相应的服务,如合适的餐厅或食物等,当然这些大多是基于可穿戴设备的。另外他们还考虑到更多场景.诸如紧急语音求助、医患对话存档、呼叫中心的对话听写等。
随着互联网技术的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。从Nuance向医疗领域发力看出,由于医疗领域词汇库专业性强演变性弱,只要建立完整的数据库,就可以做到对疾病名称、药品名称相对精确的识别。
如今国内也有了相应的应用如支持语音搜索功能的病历夹与珍立拍,致力于为医生提供一个安全存储病历资料的云空间,方便查找病例。而科大讯飞、云知声、盛大、捷通华声、中科信利、尚科语音、搜狗语音助手、紫冬口译、腾讯语音、百度语音等都日渐被用户习惯的系统,都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。
从打字到语音的习惯改变
随着语音识别在移动终端上的应用越来越火热,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。
腾讯、百度都建立了自己的语音团队,在移动搜索领域发力 随着吴恩达加盟,担任首席科学家,负责百度研究院,百度看起来更加高大上了许多。吴恩达的研究领域就是机器学习和人工智能,研究重点是深度学习。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。在语音识别方面,会对互联网、家用电器带来很大的改革在百度Big Talk2015年第一期公开课上,吴恩达说,“语音会是改革互联网的很大一个因素。语音识别会推动物联网的革命,比如汽车界面、家用设备,以及可穿戴设备。在这方面,特别是在移动互联网方面,中国其实领先于美国和其他国家很多。”
中图分类号:TN912 文献标识码:A 文章编号:1007-9416(2012)02-0082-01
由于生活节奏的加快,汽车已经成为了人们生活中重要的工具,人们在车内的时间也更多。同时也希望能够在车内接收到外界的信息继续进行工作,还要求汽车有娱乐功能,因此促进了车载多媒体的发展。而车载多媒体传统的人机交互方式会增加潜在的驾驶危险,为此将语音识别应用于车载多媒体系统中,将会是车载多媒体发展的重要方向。端点检测、特征参数提取以及识别是语音识别的主要内容,本文也将从这三个方向对车在多媒体系统的语音识别进行研究。
1、端点检测
在进行语音识别时,首先需要通过端点检测来对语音信号中的无声片段和有声片段进行分割。目前,语音端点识别已经从开始的单一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言,计算量较大、识别响应时间较长端点检测的方法显然不使用,所以主要采用基于短平均过零率和短时间平均幅度的方法来进行语音端点检测,这种方法利用短时间内幅度的检测和过零率来作为语音端点的检测。
首先,利用短时幅度可以有效判断语音端点,同时语音的浊音部分平均幅度会明显大于噪声的平均幅度,然后同时再辅以短时过零率的方法来判断语音开始的浊音,从而进一步对端点检测进行校准,两者的结合能够更加精确的判断语音端点,并且两种算法都较为简单,能够满足车在多媒体的需求。
2、特征参数提取
在完成语音的端点检测之后,需要提取语音的特征参数,然后进行语音识别。目前用于语音特征参数提取的算法主要有LPCC(线性预测倒谱系数)和MFCC(Mel频率倒谱),由于MFCC具有更强的抗干扰能力等特点,更适合与噪声较多、司机不能离输入设备很近的车载环境。
分析MFCC的语音特征参数提取可以分成预加重、加窗、FFT(快速傅里叶变换)、滤波、自然对数提取、自然对数DCT计算这六个步骤。由于MFCC其计算精度以及计算量都较大,因此,使用MFCC作为车载系统的语音特征参数提取时,需要进行相应的改进:
(1)在MFCC实现的六个步骤中,例如加窗等步骤就可以实现进行计算,然后存储在数组中,在使用时进行查表提取,从而避免每一次语音识别时重复计算,从而加快了计算速度。
(2)FFT需要花费大量的时间(据统计,FFT需要花费MFCC56.32%的时间[2]),由于FFT算法是对复数进行处理,而语音信号的处理只涉及到实数部分,其虚数部分为零,因此增加了运算时间,因此可以利用文献3所提出的FFT运算方法,将长度为N的FFT预算降低到长度为N/2的FFT运算,从而提高了语音特征参数提取效率。
3、识别模式
语音识别的原理是模式匹配,通过计算现有语音模式与语音模板库中的模板的距离,来获得最佳的匹配模式。匹配的方法主要有DTW(动态时间规整)、HMM(隐马尔科夫模型)和ANN(人工神经元网络)。由于ANN计算量较大,因此不适合用于车载多媒体系统中,HMM需要繁杂的程序结构,包含众多功能模块,需要大量的计算。因此, DTW模式更适合用于车载多媒体系统中。能够满足车载系统孤立词、小词汇量的语音识别。
为了更好的在车在多媒体系统中的嵌入式平台上实现DTW,对DTW进行进一步的改进:
(1)由于在语音识别汇总,对音头和音尾的判断存在一定的误差,因此,使用传统DTW方法在进行固定端点匹配时会存在一定的误差,从而降低了语音匹配成功率。为此,可以采用放宽端点限制的方法来使用DTW进行语音识别。其主要的思路是取消传统DTW中对音头和音尾严格对其的限制。从而,只要两次语音在开始的W帧内能够匹配成功,同时在结束的W帧内匹配成功,即认为两次语音匹配成功。在降低了对端点检测的精度要求,符合车载系统小词汇量的特点,不会降低车载系统语音识别效率。
(2)在使用DTW进行语音模板匹配时,需要计算两个模板各帧的距离来计算模板之间的距离。加入模板库中的某个模板T有N帧,待识别的语音R有M帧,那么通常需要申请M×N长度的空间,再根据两个模板所有帧间距离计算整体长度。但是在实际的应用中,只需要M长度的空间来存放模板T第n-1帧与模板R中M帧之间的距离,在计算完第n帧与模板R中M帧之间的距离对M长度空间的数据进行替换,从而进行模板T第n+1帧与模板R中M帧之间的距离,从而节省了(N-1)×M的存储空间,这对车载系统有限存储空间的系统中有着非常重要的意义。
4、结语
相比于传统的按钮式、触摸屏式人机交互系统,语音识别对于车载多媒体系统有着非常重要的意义,将是车载多媒体系统重要的发展方向,本文针对车载多媒体系统对低CPU运算时间和地存储空间的特点,对语音识别中的端点检测、语音特征参数提取以及识别模式的实现和优化进行了研究。
参考文献
[1]方敏,浦剑涛,李成荣.嵌入式语音识别系统的研究和实现[J].中国信息学报,2004,(6):73~78.
[2]万春,黄杰圣,曹煦晖.基于DTW的孤立词语音识别研究和算法改进[J].计算机与现代化,2005,(13):4~6.
中图分类号:TP242 文献标识码:A
1语音识别技术的研究意义
人们使用的声音语言是一种人在特定高度思维和意识活动下的产品。语言是人类最直接以及最理想的交流方式,也是人机通信是最方便的方式。在机器人发展的高级发展阶段中,机器人的智能语音识别与人类的活动是密切相关的,有声语言的人机交互信息成为重要的手段。例如,语音识别获取外界信息很自然,没有特殊的训练方法,随着机器人技术的发展和广泛应用,有越来越多的机会来接触人类和机器人,所以人们希望通过语音识别和机器人去处理,不管谁能能准确安全,方便地操纵机器人。机器人和人类之间的信息交互,表现在两个方面,一是对更高层次的机器人操作,方便软件的设计开发,这种多为教学机器人,另一种是在实际操作的要求下完成信息交互任务的机器人。智能机器人作为机器人技术发展的高级阶段,其发展趋势是:不仅要求机器人具有高度的自治能力,还要使机器人和人类之间的协调也具有一定的智能性。这就要求机器人具有不同的高性能主动做事能力,而不是被动地接受任务,为了实现这一目标,自然语言作为人机信息交换将发挥越来越重要的作用。目前,智能机器人已成为机器人研究领域的一个热点。工业机器人是智能机器人的一个重要研究领域。当今,工业机器人的发展方兴未艾,巨大的市场潜力,使真正的工业机器人的已经在市场上崭露头角,以满足人们日益增长的需求,我们不能没有一个高性能的语音识别系统。由于工业机器人是面向生产实际的需要,最好的工作方式是让机器人能顾听懂最常见的人类语言,完成指定的工作,并能与人交流。机器人语音识别是机器人研究领域中的语音识别应用,最终的目标是让机器人了解人们的口头语言,然后按照人们的命令来行动或反应,从而形成一个良好的人机对话系统。为了能够进一步推动智能机器人的开发应用,因此,在语音识别机器人的研究领域中,机器人语音识别系统是工业机器人的实际推广应用,具有重要的意义。
语音识别技术在智能机器人中的应用已经有很多年的历史,作为智能机器人的一个分支,工业机器人得到了迅速发展,工业机器人通过语音识别从工业噪声中提取有效的语音命令。为了实现机器人在一些特殊工业环境中工作的目的,机器人要能够识别命令意图。语音识别技术,可以实现人机对话,从而让机器能模仿人类完成所有工作的分配,使其在各行各业中能够得以应用。目前所面临的实际问题是:噪声和干扰环境下对大型工业机器人的语音识别有严重的影响。在机器人识别领域,工业环境中的实时性是一个非常重要的任务。机器人在工业环境下应用的听觉识别是使智能机器人发展速率低的瓶颈。
2语音识别系统的发展
2.1语音识别系统的发展方向
语音识别系统是基于一套应用软件系统的硬件平台和操作系统的一些。语音识别一般分为两个步骤。第一步是学习或培训。这一阶段的任务是建立基本单元的声学模型来进行识别和模型的语音语法分析等。第二步是识别或测试。根据识别系统的类型可以满足一个识别方法的要求,使用语音分析的方法来分析语音特征参数,并建立了比较和测量系统模型,根据一定的标准,鉴定结果。
语音识别系统的应用可分为两个发展方向,其中一个是大词汇连续语音识别系统,主要应用于计算机的听写机,以及结合电话网或互联网的语音信息服务系统,这些系统是在计算机平台上的一个重要发展方向。其次是应用的小型化,便携式音频产品,如无线移动电话的拨号,语音控制车载设备,智能玩具,家用电器和其他方面的应用的远程控制,这些应用系统大多采用特殊的硬件系统来实现,特别是语音信号处理芯片和语音识别芯片,最近几年快速发展,为其广泛应用创造了极为有利的条件。
2.2语音识别系统的模型与模式
语音识别系统的核心是声学模型和模式分类。首先通过学习算法,训练语音声学模型的特点是通过学习过程来生成声学模型,这是识别潜在的模型的前提,是最关键的语音识别系统的一部分。声学模型的目的是提供一种有效的方法来计算特征向量的声音序列和每个发音模板之间的距离。人的发音在每一刻发音之前和之后都会受到影响。
为了模仿自然连续的协同发音和识别不同的发音,通常需要使用复杂的声学模型。声学模型和语言的发音特点的设计是密切相关的。声学模型单元大小与单词发音,音节模式和音位语音训练数据大小有关,故要求其系统识别具有很大的灵活性。大词汇量语音识别系统,通常采用较小的单元和少量的计算,该模型只有较小的存储容量,减少训练数据的数量,但相应的声音定位和分割问题就显得更加困难,规则识别模型变得越来越复杂。通常大型模型中识别单元包括协同发音,这有利于提高系统的识别率,但训练数据也相对增加。必须根据不同语言的特点来识别词汇,词汇量大小决定单位大小。
无线通信网络在创造移动电子商务时,也带来一系列不安全的因素,例如黑客窃听、盗取信息、篡改用户信息等。同时,有关法律法规的不够完善也严重制约着移动电子商务的快速发展。
1.窃听用户信息
过去的电子商务中,入侵者可以运用有线网络,进一步实施有关的窃听工作,因此,极易判定入侵者的具置和信息。在无线网络环境下,进行追踪比较困难,因此在无线网络环境下,入侵者如果具备网卡或相关的无线设备从任何地点都能进入无线网络中。
2.黑客篡改用户信息
篡改用户信息的情况在无线电子商务中非常普遍,如果非法用户采用无线通信网络获取用户的交易信息,可以随意把篡改或删除信息发送出去,这会给用户带来很大的损失。黑客也可以截取用户的登陆名称或密码,从而窃取用户的合法账号。
二、语音识别技术在移动电子商务中的应用
1.创建安全模型
本文设计的安全模式,是以语音识别技术为基础,创建移动电子商务安全模型。该系统包含移动设备用户、语音服务提供商、移动电子商务企业三个部分组合而成。客户端输入的语音信息先让移动电子商务企业接收,随之传送至语音服务提供商进行处理。设计的模型主要表现在储存语音信息、进行语音识别、及时更新、传输安全四个方面,从而有效保障电子商务交易的安全运行。
2.安全模型的各项功能
(1)存储语音信息
在无线电子商务实际交易时,全部的语音信息会先存在移动电子商务企业的语音数据库内,移动电子商务企业把用户读入的信息转换为数字符号,存入专业的语音数据内并标明用户名称、时间等信息,从而更好的标识语音信息。移动电子商务企业把新增加的语音信息发送到语音服务提供商,由他们对这一段语音信息给予相应的处理,成功获取这段语音特征之后,自行把特征信息输送到移动电子商务企业的语音特征数据库内,并标明相对应的用户名称、时间等信息,随之进一步展开语音识别。从上述的分析可知,对用户输入的语音信号进行去噪、提取特征先是由语音服务提供商进程处理。语音服务提供商把语音信息传输给电子商务企业的语音特征数据库之后,电子商务企业系统会先对语音特征是否已经出现在数据库中,如果查询获知该用户名存在,表明数据库已经详细记录该用户的语音信息;随后把新录入的语音特征与上一次最新的语音特征展开比较。若两次语音特征一致,表明该语音顺利通过系统识别,证明用户的身份合法。同时,由于语音并不是独特或唯一的,进行语音识别时极易受到外界环境的干扰,对确定语音识别发生源非常困难。此时,可以使用相关技术在服务器端设置声呐装置,当用户进行语音识别验证过程中,凭借超声波判定发生源体积的大小。但该设备无法安装在客户端上,如果这样非法用户可以把客户端的声呐设备拆卸下来,从而致使发生源可信度降低。
(2)及时更新语音特征
移动电子商务企业不仅仅要接受输入的语音信息,同时要及时更新语音特征,从而提升语音识别的准确度。具体实施步骤如下:首先必须具备充足的历史信息才能有效总结新的规律。移动电子商务企业可以建立定时查看用户语音特征的系统,如果系统检测到语音特征数据库共出现30余条相同用户名的语音特征,系统会自动对语音特征展开比较,从而找寻其中的差别,最后获取新的语音特征。把新的语音特征作为21条语音特征输入语音特征数据库内,之后发送到相关企业数据库内。若看到某一用户名下语音特征多于20条,运用这一信息数除以20,如果得出的余数是0,在采用最新的20条信息按照上述的步骤进行处理。运用上述方法对语音特征进行更新。
(3)传输语音信息
1 项目建设目标
1.1 项目背景
目前,固网用户拨打电话,必须先查出被叫的号码,并按键进行拨叫。而随着通信业的发展,要记的电话号码越来越多,而目前大部分的固定电话都没有号码存储的功能,所以很多时候使用固话打电话时,要么从手机上查找被叫的电话,或者是从纸制电话簿去查找,既不方便,又浪费时间。
“语音电话本”完全可以帮助用户解决以上问题,用户只需拨打一个号码接入系统平台,说出联系人的姓名,系统就可以自动将话路转到该人的电话上。整个过程通过自然的语音方式交互,即感到亲切自然方便快捷,又节省时间,提高工作效率。
从服务管理的角度来看,随着信息通信客服业务受理的不断发展,座席客服话务量越来越多,用户对服务的质量要求也越来越高,传统客服系统在传统语音信息处理上的局限性制约了系统服务和管理能力的提升。
服务方面,由于业务的多样性和复杂性带来的海量数据信息不能得到快速、有效的关联处理而产生的问题,影响了客户服务体验。
运营管理方面,雇佣人工座席每天接听大量的信息查询电话,座席业务人员的更替带来的培训,消耗了部分运维成本,影响了服务质量。
1.2 建设目标
本项目通过研究智能语音技术在国网辽宁公司信息通信客服系统中的应用,将语音识别及客服查号业务相结合,使用先进的语音识别技术来代替繁重的人工劳动,提高省公司内部沟通的效率。目前,语音电话本技术实现主要包含:ASR 、TTS 、IVR 三项技术,其中TTS和IVR技术对于语音电话本业务来说已经非常成熟。
ASR语音识别技术近年来发展十分迅速,其应用也逐步得到推广,佳都新太也一直开发、调试、应用这项重要的语音技术,自2001年以来佳都新太先后在广西、天津、广东、河北、湖北、江苏、辽宁等省的多个项目中使用了ASR 自动语音识别系统,佳都新太通过对ASR测试、改进,自动语音识别率达到95%以上。
语音电话本业务可以说是CTI平台上的典型应用,佳都新太把ASR语音自动识别技术、TTS语音合成技术与CTI 的IVR技术三者融合为一体,为语音电话本业务的技术实现提供了可靠的保障。
本项目可以达到目标:
1.2.1 对语音信息的自动化处理
通过建立具备智能语音分析能力的语音识别平台,实现对用户查号业务的语音实时识别及关联处理,同时实现对语音文件的统一分析,提供支撑客服业务受理的有效工具。
1.2.2 文件分析处理
通过语音分析引擎对送入的语音进行文字转写、维度结合后生成索引文件,这些结构化的索引文件中包含了语音中的所有信息。索引文件存储到数据仓库中,通过对有效的海量录音文件、音频文件进行分析处理。
1.2.3 实现自助查号功能
通过实现语音中的知识挖掘和语音文件的快速检索,实现自动语音查号功能。
2 项目技术方案
2.1 项目设计原则
本次项目是对省公司固定电话语音自动查号系统的功能完善,使用先进的语音识别技术来代替繁重的人工劳动,提高省公司内部沟通的效率。
本次项目的关键点和技术难点在于语音识别,因此在方案设计过程中我们着重考虑了这个问题,选用了国内领先的智能语音技术来作为语音识别引擎,结合座席客服系统的需求提供定制化专业服务。
2.2 整体架构设计
如图1,用户通过拨打查号服务电话,系统为用户播放自动语音并引导用户按键选择功能和需要查号的人名,系统根据语音分析出内容,并在数据库中查询对应的号码,系统将查到的号码以自动语音方式播报给用户。
系统部署需新增接入网关1台,用于与电力内部电话程控交换机对接,实现平台电话呼入呼出。采用电信级语音接入网关Dialogic DMG2030,接入规模1E1(即30路通话),PRI信令,通过电路中继上联到辽宁电力内部程控交换机。辽宁电力内部程控交换系统为语音电话本系统分配一个内部接入服务号码和一个外部接入服务号码。同时网关接入虚拟资源池虚机网络。
新增虚拟资源池虚机1台,用于部署媒体处理软件、CTI平台、语音电话本业务应用软件、科大讯飞ASR软件和TTS软件、Oracle数据库。
新增核心网络交换机1台,用于系统组网。
2.3 系统逻辑结构
IVR与TTS、ASR通过语音引擎实现整个语音交互过程的自动识别、自动播放功能。系统采用B/S结构,方便用户对电话本的修改,也便于各营业网点的开户、受理以及对用户的电话本进行维护等。整个系统采用模块化结构,具有很高的可靠性和可扩充性。
逻辑结构见图2。
2.4 系统建设方案
新建“语音电话本”业务平台,其网络拓扑结构如图3所示。
设备组成说明:
系统平台需要以下设备:
(1)IPS数字排队机;
(2)信令网关节点;
(3)数据库服务器: 实现用户数据的存储和系统认证等功能;
(4)TTS服务器: 通过IPS平台的MS模块来实现资源调用;
(5)ASR服务器:通过IPS平台的MS模块来实现资源调用;
(6)WEB服务器:实现用户通过互联网对电话簿的维护管理功能;
(7)业务处理服务器:用于处理个人语音电话本业务流程;
(8)管理维护节点;
(9)路由器和防火墙等网络设备;
2.5 配置计算依据
2.5.1 中继和语音的配置比例
语音电话本业务,用户报出要找的人的姓名后,ASR进行识别,系统根据ASR识别出的名字,找出对应的电话号码并进行外呼,被叫接通后,主被叫进行通话的过程中,语音资源即可释放。整个业务实现和呼叫卡类业务的资源配置非常相似,根据200业务的实际运行经验数据,建议中继和语音的比例为4:1。
2.5.2 中继和ASR的配置比例
在一个呼叫的过程中,用户说出要找人的姓名,ASR资源进行识别,在识别完成系统呼通被叫后,ASR资源释放,主被叫双方进行通话,按平均呼叫时长为150秒,其中ASR识别的时间大概为30秒,而在一次通话中占用一入一出两个通道,按上面的估算数据,中继和ASR的配比大约为 2×150/30=10:1。
2.5.3 中继容量和所能支持的用户数的比例
假设一些呼叫参数如下:
系统中继容量A
用户数 B
每用户每天使用次数C:8次
每次呼叫时长D:150秒
忙时集中系统E:10%
忙时中继Erl数F:0.8
根据公式:A=B*C*D*E/F/3600
则 A:B=8×150×10%/0.8/3600=1:24
因为语音电话本业务每次呼叫要占用一入一出两个端口,所以中继容量和所支持的用户数的比例约为1:10。
2.5.4 数据库处理能力计算
忙时TPMC=(忙时呼叫次数×(平均每次呼叫数据库访问次数+其他应用模块平均每次呼叫事务访问处理次数))/60
按4.3.3假设的数据,当使用语音电话本的用户数为10,000用户时,系统的忙时呼叫次数为 10000×8×10%=8000次/小时
按每次呼叫对数据库的访问操作次数为10次来计算,则10,000用户时,对数据库的TPMC值的要求为:
TPMC=8000×10/60=1333
2.6 业务系统功能
2.6.1 业务流程(如图4)
2.6.2 声控拨号
用户使用绑定电话拨打接入号码“***”进入系统后,系统直接会提示用户报出用户想找的人的姓名,并进行呼叫。
(1)“联系人名字” 选中默认呼叫号码:
(2)用户拨打“语音电话本”服务号码;
(3)说出对方姓名,如:张三;
(4)系统识别语音,查询对应的默认电话号码;
(5)系统通过语音播报查询到的电话号码。
(6)“联系人名字+电话类型” 精确查询:
(7)用户拨打“语音电话本”服务号码;
(8)说出对方姓名+电话类型,如:张三 手机;
(9)系统识别语音,查询对应的电话类型的号码;
系统通过语音播报查询到的电话号码。用户通过绑定电话使用语音电话本业务流程如图5所示。
用户使用非绑定电话使用语音电话本业务时,必须先通过输入帐号和密码,经过系统鉴权后才能使用。
2.6.3 原始通讯录的录入
语音电话业务开展的一个关键问题,就是用户申请该业务后首批通讯录的录入问题,首批通讯录相对来说量比较大,录入的方式建议采用营业厅前台填表录入、通过WEB录入的方式,也可以采用电话、传真、信函的方式进行录入。在首批通讯录录入后,用户在使用过程中做一些号码本的修改和维护,维护量都比较小,可以通过WEB方式、电话、短消息、传真等多种方式进行修改。
批量导入电话本:
通过Excel文件导入企业通讯录,可以参考如表1格式。
可以根据实际需求增加其他列。
2.6.4 电话本维护(Web)
系统提供后台管理界面,管理员登录后台对电话本进行管理,如图6。
个人电话本资料可通过Web、人工坐席、电话、传真、短消息等多种方式进行电话本资料的维护管理,包括修改用户密码等。
业务流程如图7所示。
“增加、删除、修改”用户记录:
系统提供对单个记录的“增加”、“删除”、“修改”功能,方便对电话本进行灵活管理。
2.6.5 多个号码优先呼功能
当用户录入的某个联系人有多个通讯号码时,如有手机、小灵通、固定电话,可以把这些号码都录入在系统中,在呼叫时,用户可以自行设置优先呼叫的号码,在号码不通时再按设置的优先策略逐一呼叫被叫其他的联系方式。
2.6.6 信息查询(Web)
系统提供电话本查询界面给座席和管理员使用。
座席和管理员可根据联系人姓名,查询联系人对应的所有电话信息。
该功能主要在座席提供人工服务时使用。
3 技术创新点
本次项目采用国内领先的智能语音识别技术(ASR)结合客服后台定制化查询需求,在满足用户传统的查询基础上,语音定制化为用户报出相关信息,由用户按键选择即可,大大方便了用户的操作和客服的工作时间。
4 总体性能指标
通过研究智能语音技术在信息通信客服系统中的应用,实现客服查号业务的自能化,实现语音的自动识别及数据分析,减少人工运维成本,提高客服服务质量及服务效率。
5 技术展望
中图分类号:TP391.6 文献标识码:A 文章编号:1674-7712 (2014) 12-0000-02
随着全球化的发展,越来越多的人想掌握一门外语,而传统的语言教学已不能满足人们的这一需求。计算机辅助语言学习(Computer Assisted Language Learning,缩写CALL)伴随着这一时代背景应运而生。CALL是在一定的语言学和心理学的理论基础之上,利用计算机技术和信息技术辅助、推进语言学习。目前,许多CALL学习软件大多是把各类资料集成在一起,基本上不能对学习者给出有效的反馈信息。语音识别技术的应用使得CALL系统可以具有发音评测的功能,能够帮助学习者及时发现和纠正错误发音,避免重复错误发音形成习惯,从而极大提高了学习者的学习效率。
一、计算机辅助语言学习(CALL)及其特点
(一)计算机辅助语言学习(CALL)简介
语言作为我们的日常交流工具,在经济全球化发展的今天,它的社会功能也越来越凸显。随着国际交流的日益频繁,越来越多的人想掌握一门第二语言,语言学习也成为了教育领域的一大热点。
语言学习的直接目的就是提高学生的交际能力,而这一能力最直接的体现就是口语表达。传统的师生教学是语言学习的主要方式,在这种教学方式下口语的教学主要是采用教师讲解发音方式和发音演示,学生跟读训练的方法。可以说这样的学习方式在口语学习中是至关重要且卓有成效的,但却是不够的。随着计算机技术和信息技术的迅猛发展,CALL已成为当今外语教学发展的一个新趋势。作为一种新的学习方式,它主要是在一定的语言学和心理学的理论基础之上,利用计算机和信息技术辅助和推进外语的教学。
CALL是外语学习的新趋势,它在中国的应用已经有近20年的历史,但直到多媒体技术的出现,它才真正进入外语教学的课堂。可以预见CALL作为一种教育技术在教学中的运用是外语学习发展的必然趋势。
(二)计算机辅助语言学习(CALL)的应用及其特点
CALL始于二十世纪五十年代的美国,在语言教学中的应用始于二十世纪六十年代。其发展大致经历了行为主义阶段、交际法阶段、综合法阶段[1]。
1.行为主义阶段(Behavioristic CALL)
60年代,当时的应用主要为CAI(Computer-Aided Instruction)课件(courseware)的开发与利用,课件以行为主义(behaviorism)为理论基础。按照该理论,斯金纳设计了便于及时强化的程序教学机器和便于进行程序教学的程序[2]。程序教学主张把教学目标和内容分解成很小的单元,按照严格的逻辑顺序编制程序,将教学信息转换成一系列问题与答案,电脑呈现一个问题(S),学生提供一个答案(R),答对给予奖励,答错给予惩罚,奖励或惩罚紧随反应之后,这样通过一步步地强化使学生掌握教学内容,最终达到预期的目标。
这时CALL软件的特点是:计算机仅作为提供素材和指令的工具,将各知识点以固定方式组织起来;允许学生根据自己的步调自定学习进度和速度,但学习过程完全由计算机程序控制;计算机向学生提供大量的练习,练习的答案往往是唯一的,学生的回答没有自主性和灵活性。
2.交际法阶段(Communicative CALL)
20世纪80年代,计算机的功能大大加强,微机(microcomputer,或称个人电脑 personal computer)开始应用于教育。CAI课件的设计原则转向以认知心理学为主导,强调学习者的心理特征和认知规律,遵循认知的信息加工理论,把学习看作是学习者根据自己的态度、兴趣、爱好和需要,利用原有的认知结构,对当前外部刺激所提供的信息做出主动、有选择的信息加工。这一时期CALL软件的代表是著名学者安德逊(Aderson)根据认知学习理论,研制出的”高中几何智能辅助教学系统”,它实现了对学生求解几何问题思维过程的自动跟踪和控制。
这一时期CALL软件的特点是:计算机能够根据学习者的需求和特点进行个别教学,但由于心理学对人类学习规律认识不全面和人工智能技术的发展不成熟,CALL软件离个别化教学还有一段距离。
3.综合法阶段(Integrative CALL)
80年代后期并持续至今,多媒体技术与网络技术取得突破性发展,尤其是因特网的出现及其迅猛发展不仅改变了传统的生产方式、生活方式和思维方式,也改变了人们的教育观念和学习方式,引起了一场教育革命。
同时期崛起的建构主义(constructivism)学习理论成为这场教育革命中革新传统教学的理论基础。建构主义学习理论与认知语言学、社会语言学、第二语言习得的理论等构成综合法的理论基础。其中社会语言学的影响尤为明显,它强调在语言学习中要为学生提供真实的社会交际,使他们能够掌握社会所需要的语言技能(Warshauer&Meskill,1998)。而实现这一目的的最好方法是使学生参与有意义的任务型学习(task-based learning)。通过专题学习(thematic learning)、项目型学习(project-based learning)、协作式学习(collaborative learning)、跨文化学习(cross-cultural learning)等多种方法,在兼学知识、文化的同时学习语言。
这一时期CALL软件的特点是:(1)计算机作为认知工具、情感交流及协作学习工具,起到导师、伙伴的作用;(2)提倡为外语学习创造真实的情境,开展有意义的、有创造性的语言交际活动;(3)提倡将语言的学习与计算机技能的学习及使用结合起来,培养学生具有21世纪网络时代所需要的外语交际能力(Warshauer,1996;Warshauer,Shetzer,&Meloni,2000)。
由此可以看出,CALL经历的三个阶段伴随着教育学、心理学、计算机技术和信息技术的发展而发展,CALL系统的设计也向着交互性、个性化、针对性和创造性的方向发展。
二、语音识别技术在CALL系统的应用
(一)语音识别技术简介
语音识别技术,也被称为自动语音识别技术(Automatic Speech Recognition,ASR),其目标是让机器也能够像人一样具有听觉功能,直接接受人的语言,能理解人的意图,并做出相应的反应。
最早的基于电子计算机的语音识别系统是50年代由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字[3];60和70年代,线性预测编码(Linear Predictive Coding LPC)及动态时间规整(Dynamic Time Warp DTW)技术的提出有效的解决了语音信号的特征提取和不等长的匹配问题[4],实现了特定人孤立词语音识别系统;80年代和90年代,隐马尔科夫(HMM)模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异,实现了大词汇量、连续语音和非特定人的语音识别。随着多媒体时代的到来,语音识别技术逐渐从实验室走向应用,其代表有:Via Voice、Whisper、Voice Tone、Voice Action、Siri等。
21世纪,互联网和移动通信技术的发展给语音识别带来了新的契机,语音识别应用已经延伸到各个方面,如通讯领域、计算机语音检索系统、自动化控制等。语音识别技术已经成为一个具有竞争性的新兴高技术产业,是一门既有理论价值又有实际意义的重要学科。
(二)语音识别技术的基本原理
从技术上看,语音识别属于模式识别的范畴,其系统结构与模式识别具有相似之处。不同的语音识别系统在具体实现细节上有所不同,但所采用的原理基本是相似的。首先要对输入的语音信号进行预处理,并抽取所需的语音特征,在此基础上建立语音识别所需的语音模板。在识别过程中,将输入的语音信号的特征与己存在的语音模板进行比较,并根据一定的搜索,找出最优的与输入的语音相匹配的模板。最后,给出计算机的识别结果。其识别过程如图1:
图1
(三)语音识别技术在CALL中的应用
随着计算机技术和信息技术的发展,CALL已成为现代教育技术在教育领域一个重要应用。但最初的CALL主要应用在文字阅读和语言理解能力的训练,现存的CALL系统也大多侧重单词、语法的学习[5],很少关注语言发音训练。语音技术的不断发展和成熟为学习者发音练习提供了可能,它在CALL中最直接的应用就是帮助用户更好地练习语言发音。
CALL中引入语音识别技术,改变了传统的语言学习方式,使得学习者能够对自己的发音做出客观的评价。基于语音识别技术的CALL已成为计算机辅助语言学习系统研究的热点,不少公司和科研机构也投入了大量的人力、物力、财力在研究开发相关的发音学习系统,并且出现了一些较为成熟的产品。如“Pronunciation”、“Tell Me More”等,这些系统采用提供语音信号波形图的方式让学习者进行模仿,这种方式只是给学习者技术上的冲击感,对改善他们的发音并没有实际的帮助。国内许多英语学习软件都是把各类英语资料(文本、图片、音频、视频)累积在一起,基本上不能对学习者给出有效的反馈信息,即便加入了语音识别功能,其功能类似于复读机,即只能给学习者提供发音演示、录音跟读的功能,如“说宝堂”、“e百分”等产品。由于很少有软件会对学习者的发音做出一个整体的评分,也不能准确定位和检测学习者的发音错误,更没有对学习者的错误发音做出一个反馈和矫正,加之学习者因为自身水平限制,很难完全发现错误、纠正不正确的发音。故此,软件发音错误矫正的功能显得尤为重要。基于语音识别技术的CALL系统对于语言学习者来说是一个有效的辅助语言学习的平台,为了有效的促进语言学习,它应该具备如图2所示的功能。
图2
通过分析我们可以发现,目前语音识别技术在CALL中的应用取得了一些进展,但是仍然有一些问题等待解决和克服。目前的一些困难和问题主要集中在产品设计理念和技术实现上两个方面。
在产品设计理念上我们需要考虑以下几个问题:(1)教育软件的设计和开发应该应考虑学习者的需求,以学习者为中心;(2)教育软件的设计应该考虑教育学和教育心理学的相关理论,避免书本知识的搬家;(3)考虑学习者认知的个体差异性,为学生提供多元化学习的认知工具。
在技术实现上我们需要考虑以下几个问题:(1)选择合适的识别基元以提高识别率;(2)对语音信号的端点更加精确的检测,即判断语音信号的开始和结尾以提高识别的准确率;(3)对给定的发音进行错误检测和纠正,寻找合理的评分机制,并对学习者的发音进行及时、客观的反馈;(4)提高预处理阶段语音信号的信噪比;(5)选择高效的识别算法以减少识别时的搜索范围,提高识别速度。
四、结束语
本文分别介绍了语音识别技术和CALL,然后对语音识别技术在CALL中的应用进行了综述,并探讨了设计基于语音识别技术的CALL系统时需要考虑的问题。语音识别技术作为一种逐渐成熟的技术,它是基于语音识别技术的CALL系统的基础与核心。基于语音识别技术的CALL是一种新的、有效的学习方式,它能够有效的促进学习者口语水平的提高,也是CALL系统的一个重要发展方向。
参考文献:
[1]杨芳,曹扬波.计算机辅助语言学习的发展与前景[J].中国科技信息,2011(02).
[2]何克抗,李文光.教育技术学[M].北京:北京师范大学出版社,2009.
[3]詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机,2008(09).