欢迎来到易发表网!

关于我们 期刊咨询 科普杂志

语音识别技术优选九篇

时间:2023-02-27 11:16:52

引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇语音识别技术范例。如需获取更多原创内容,可随时联系我们的客服老师。

语音识别技术

第1篇

关键词:语音识别 应用领域 热点 难点

中图分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02

1应用领域

如今,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。预计在不远的将来,语音识别技术将在工业、家电、通信、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

2发展历史

语音识别的研究工作开始于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技术(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。

90年代,人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也开始应用于语音识别,它和HMM模型建立的语音识别系统性能相当,在很多系统中还被结合在一起使用以提高识别率及系统的鲁棒性。小波分析也开始用于特征提取,但目前性能不理想,其研究还在进一步深入中。

现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。

3研究的热点与难点

目前语音识别领域的研究热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研究 、声学HMM模型的细化、说话人自适应技术、大词汇量关键词识别、高效的识别(搜索)算法研究 、可信度评测算法研究、ANN的应用、语言模型及深层次的自然语言理解。

目前研究的难点主要表现在:(1)语音识别系统的适应性差。主要体现在对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚,这必将阻碍语音识别的进一步发展。

4语音识别系统

一个典型的语音识别系统如图所示:

输入的语言信号首先要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。

语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,简单的说就是样本改变符号的次数,可以粗略分辨清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。通常识别参数可选择上面的某一种或几种的组合。

语音识别是语音识别系统最核心的部分。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大部分。声学模型用于参数匹配,通常在模型训练阶段按照一定的准则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式本质特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定准则进行匹配与比较,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言规则,它包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理则可以进行语法、语义分析。

声学模型是语音识别系统中最关键的一部分。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。

DTW是较早的一种模式匹配和模型训练技术,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已逐渐被HMM和ANN模型替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态可以观察到的符号数M(符号集合O)、状态转移概率A及描述观察符号统计特性的一组随机函数,包括观察符号的概率分布B和初始状态概率分布 ,因此一个HMM模型可以由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。

模型参数得到后可以用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段就是要计算每个模型产生观察符号序列的输出概率,输出概率最大的模型所表示的词就是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大减少了计算量,已经被广泛采用,关于它们的各种改进方法也被大量提出。

ANN在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大部分应用神经网络的语音识别系统都采用了BP网并取得了较好的识别效果。

将ANN与HMM结合分别利用各自优点进行识别将是今后的一条研究途径。二者结合的混合语音识别方法的研究开始于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习概率参数。

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5总结

尽管语音识别技术已经取得了长足的进步,而语音识别系统也层出不穷,不断的改变人类现有的生活方式,但其比较成功的应用也只是在某些特定的领域,谈不上大规模广泛的应用。只有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高性能的、完整的计算机语音识别系统。

参考文献:

[1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.

[2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.

[3]赵力.语音信号处理[M].机械工业出版社,2003.

第2篇

关键词: 语音识别; 识别原理; 声学建模方法; 多维模式识别系统

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结 语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

参考文献

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.

[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.

[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.

[9] 何湘智.语音识别的研究与发展[J].计算机与现代化,2002(3):3?6.

第3篇

关键词:连续语音识别;关键技术;创新

谈到语音识别,就不得不提到李开复------前微软研究院院长,他在哥伦比亚大学时主攻的就是语音识别,即通过机器来识别语音。语音识别是现代社会背景下的一门新兴学科,它最主要的功能就是可以让计算机听懂人说的话,进而为人们提供更高效且方便的服务。它是人类和计算机之间利用语言进行交流 的桥梁,也是一门与多种学科紧密联系的实用技术。现阶段,人们对连续语音识别的研究已经取得了一定的成就。目前,我们研究语音识别的重点正在向特定应用领域口语的识别和理解方面转变。在这个研究中,有几种关键技术,下面我们就对其中几种关键技术进行简单的分析。

1、词语定位技术

词语定位技术,在语音识别技术中非常重要的技术。主要通过对关键词进行定位,这种技术跟语言的语法特点有很大关系,是将语句中的关键词语提取出来的一种定位技术。比如主语,谓语,宾语就是关键语素,先将这些语素定位对于完善整句话有着非常重要的意义,因为这些语素已经勾勒出了语句的骨架。打个比方,盖个房子要加钢筋,来增加建筑物的强度和支撑作用,关键语素就是语句意群的钢筋。通常词语定位是通过设置并及时更新关键词库来实现的。

2、关联搜索技术

在确定完基本语素后,就要根据语素之间的关联性,进行搜索,那些语素是一个意群,同在一个意群中的语素如何排列。利用相关性确定意群非常重要,因为词语词之间不是任意搭配的,而是有规律的,这种规律就是语法,包括书面语语法和口语的语法。语法是语音识别的规则,因此是非常重要的。关联的方式在语法的约束下主要有以下几种:1.相关词语出现的概率;2.相关词语的词性;3.相关词语出现的语境的重复率等等。

连接词识别就是说,系统中存储的HMM针对的是孤立词,但识别的语音是由这些词组成的词串。由于这一技术是一个连接序列,即根据给定发音序列来找到与其最匹配的参考模块词,所以,下面的问题必须得到解决:(1)在序列中,有些时候即使知道词长度的大概范围,也不知道词的具体数量;(2)除整个序列的首末端点之外,序列之中每个词的边界位置并不知道。

3、抗阻碍性

在语音识别系统中,阻碍无处不在,具体说来,阻碍包括以下几个方面:1.方言带来的语音识别的阻碍;2.口音带来的语音识别的阻碍;3.外界干扰(噪声)带来的语音识别的阻碍;4.系统设备局限性带来的语音识别的阻碍等等。

一般情况下,在实验室(环境相对安静)中训练合格的语音识别系统用在实际环境(环境与训练的实验室环境不相匹配)的时候性能就会明显下降。所以,运用顽健语音识别技术就是为了研究一些补偿技术借以提高系统在不同环境中的性能。

根据语音系统中噪声的特点,我们研究出了一些抑制噪声的方法,如根据信号与噪声在各个尺度上的小波谱表现不一样的特点,可以运用小波变换的噪声抑制;根据含噪语音信号能量谱就是噪声信号和语音信号能量谱之和这一特点,可以运用EVRC编码噪声抑制方法,等等。

4、搜索策略技术

在利用计算机来识别语音的时候,未知的模式,即从输入语音中求出的特征参数,与事前所定的标准模式是否一致,这个问题必须检查。目前语音识别的实现主要是通过声音识别芯片分析声音的波形来实现的,人的说话声音有音调、音色的不同,因而所形成的生意的波形也不同,芯片通过比对声音图谱来确定语音内容,达到声音识别的目的,这也就是声音识别的原理。然而,在实际情况中,由于语音具有许多的不确定的因素,想达到完全一致比较困难。搜索策略是连续语音识别研究中的一个是否重要的课题。它的基本思路是,把帧作为搜索单位,在每一时刻对每一条路径都假定当前帧有可能是这一路径的后续,借此进行一个完整的搜索。

总体来说,搜索策略技术受到容量的限制。所以,我们必须确定应该保留哪些路径,这就要求我们确定一定阀值,这个阀值既不能过严也不能过宽。对于这个问题,我们一定要采用合适的算法,如传统的帧同步算法、基于统计知识的帧同步搜索算法原理和受词法约束的词搜索树等算法都是比较适合这一部分的。

结论:

    本文总结了连续语音识别中几种关键技术,并对它们进行了简单的介绍和分析。目前连续语音识别技术的研究并不成熟,它要向正确的方向健康发展就必须把词语定位技术、关联搜索技术、抗阻碍性技术、搜索策略技术等技术都正确运用于实际工作中。

参考文献:

[1]冯丽娟,吾守尔·斯拉木.维吾尔语连续语音识别技术研究[J].现代计算机:下半月,2010,(1)

第4篇

语音识别算法虽然还有很多问题没有解决,但语音识别技术已经开始逐步进入实用阶段。在发达国家语音识别技术已经用于信息服务系统和查询系统,人们可以通过电话网络查询有关的信息,并且取得很好的结果。用户交换机、电话机、手机也包含了语音识别拨号功能。调查统计表明多达80%以上的人对这些服务表示满意。中小词汇量的语音识别系统(

语音芯片的应用

近年来语音芯片应用越来越广泛,主要包括:

1.电话通信中的语音拨号。特别是在中、高档移动电话上,现已普遍具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。

2. 汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的门、窗、空调、照明以及音响等设备,同样也可以由语音来方便地进行控制。

3. 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。

4. 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。

5. 智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于语音芯片价格的降低。

6. 家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控制起来,这样,可以让令人头疼的各种电器的操作变得简单易行。

语音识别专用芯片系统有如下几个特点: 1. 多为中、小词汇量的语音识别系统,即只能够识别10~100词条。只有近一两年来,才有连续数码或连续字母语音识别专用芯片实现。2. 一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训练,这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别,即预先将所要识别的语句码本训练好而装入芯片,用户使用时不需要再进行学习就可直接应用。但这一类识别功能只适用于规定的语种和方言,而且所识别的语句只限于预先已训练好的语句。3. 由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回放(语音编解码记录)功能。4. 多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求。5. 除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。

语音识别技术发展

在发达国家各种各样基于语音识别技术的产品已经可以买到,如具有声控拨号电话,语音记事本等等。语音电话服务、数据查询服务也已经部分实现。基于特定任务和环境的听写机也已经进入应用阶段。语音识别技术是非常重要的人机交互技术,有着非常广泛的应用前景。

说话者自适应技术近年在语音识别系统的研究中也备受重视,这是由于与人有关的语音识别系统比与人无关的语音识别系统的识别率要高很多。通过有效的自适应手段可以很快地提高系统的识别能力。实际上说话人自适应技术和稳健语音自适应技术是相通的。由于不同的说话人在声道长度,说话口音方式都很不一样。说话者自适应技术也主要是从以下两方面着手。

静态处理方法。从特征提取或训练阶段就尽可能减少来自说话人的变化因素对模型的贡献。可以进行声道参数的归一化处理或对说话人进行分类处理,如分男女声的识别系统就是其中的一个典型,但实际上仅仅从男女声上对模型分类还是太粗,可以通过有效的聚类方法进行分类。这类方法统称为声学归一化处理方法。

动态处理方法。对预先训练好的与人无关识别系统,通过临时得到的特定人语音数据对系统的模板或特征参数进行自适应修正,从而在原有系统基础上建立一个用于特定任务、特定环境或特定说话人的系统,这类方法统称为自适应方法。自适应方法可分为: 批模式、累进模式、即时模式; 按自适应学习策略又分为无监督学习和有监督学习。从用户使用的方便程度来看是由难到易,而算法实现则是由易到难。采用何种策略取决于应用背景,对识别率的要求等因素。对于听写机等应用来说,最具吸引力的是累进、无监督的自适应方式,也称在线自适应。

语言模型也是目前研究的一个重要方面。目前的语言模型是与任务有关的,典型的统计语言模型是通过大量任务特定的语料训练出来的。通过新闻语料训练出来的模型不能很好地工作于法律方面的文件语音识别。有几种方法用于解决这些问题。一种是使用自适应语言模型。在静态语言模型的基础上,通过一个高速缓冲存储器对语言模型进行动态的修正; 另一种是先训练多领域语言模型,然后通过混合高斯模型将这些模型结合在一起; 还有一种比较好的办法是使用大颗粒的语言模型,如基于类的语言模型,而不是基于词的语言模型,类可以是词性类,词义类,以及由一定的数据驱动的聚类算法产生的各种类。

由于不同词可以属于同一类,这样类比较大,构成的语言模型就比较稳健。其关键的问题是如何决定词的分类,由于词的分类比较复杂,同一词可能属于不同的类,特别是解决如何通过计算机实现自动分类的算法,即使用数据驱动算法也还没有很好地解决。基于统计技术的计算语言学已经越来越受到重视,它解决了单独规则语言模型不能解决的一些问题。当然统计语言模型也不能解决全部问题,因此如何把统计语言模型和基于规则的语言模型结合也是语言模型研究的重点之一。

目前不同快速语音识别算法都在开发中。其中包括对HMM状态输出的概率分布进行矢量量化,缩小搜索空间算法,减少计算机的内存需求方法,以及结合计算机结构特点的编程技术的应用。

链接:稳健语音识别技术

第5篇

关键词:语音识别过程;动态时间规整;隐马尔科夫模型;人工神经网络;语音识别的应用

中图分类号:TN912.34

1 语音识别技术基本原理及过程介绍

语音识别系统由语音信号预处理、特征提取、模式匹配三部分构成。第一步预处理,主要有A/D变换、预加重和端点检测部分。经过预处理之后的语音信号,要进行第二步特征提取,该过程就是在原始语音信号中提取出所需要的特征参数,从而得到特征矢量序列,特征提取完成后,接下来就是语音识别的核心,也就是第三步模式匹配,也就是模式识别。系统框图如下[1]。

图1 一般语音识别系统框图

2 语音识别方法

目前,主要的语音识别方法主要有特征参数匹配法、隐马尔可夫法和人工神经网络法。

2.1 动态时间规整

动态时间规整(DTW)是早期的模式匹配方法。由于语音信号是一种随机性非常大的信号,例如相同的字,不同人说时的发音会不同,时间长短也会不同,即便是同一个人说相同的语句,发音结果也会不同,于是,在模式匹配时,要识别字词的时间轴将不断扭曲,以测试模板与参考模板对齐。DTW是一个比较典型的优化问题,它用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。动态时间规整也存在一些问题,它的计算量大,比较适合同一个人说话语音的识别,而且不能对样本做动态训练,语音信号的时序动态特性并没有很好地利用,所以DTW多用于孤立字词的识别。

2.2 隐马尔可夫模型

隐马尔可夫模型(HMM)是一种统计模型,用来描述随机过程的统计特性。它是由马尔可夫链演变来的。[2]

HMM可用三元组表示:λ=(π,A,B)

A:状态转移概率的集合。

B:观察概率的集合,表示每个状态输出相应观察值的概率。

π:系统初始状态的集合。

这三个元素π,A,B可以分为由π、A描述的Markov链和由B描述的随机过程。

HMM是一种理想的语音信号模型,如今,连续语音识别,非特定人识别系统大多是基于HMM模型的。HMM是对语音序列的时间序列结构建立统计模型的,HMM是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程[3]。

尽管马尔可夫模型是一种理想的语音信号模型,但是它还有很多不足。HMM有三个不现实的重要假设,假设一“状态转移的Markov假设”:系统在当前时刻的状态向下一时刻所处的状态转移的状态转移概率仅仅与当前时刻的状态有关,而与以前的状态无关。假设二“不动性假设”:状态与具体时间无关。假设三“输出值的Markov假设”:输出仅与当前状态有关。这三个假设之所以不合理,是因为任一时刻出现的观测值的概率不仅是依赖于系统当前所处的状态,也可能依赖于系统之前时刻所处的状态[4]。

2.3 人工神经网络

人工神经网络(ANN)是在模拟人脑神经组织的基础上发展起来的全新计算机系统。ANN是模拟人类思维中“信息的处理是通过神经元之间同时相互作用的动态过程来完成思维”。ANN是一种非线性动力学系统,它的特点在于信息的分布式储存和并行协同处理。单个神经元的结构简单,但是大量的神经元所构成的神经网络却是一种复杂的网络。ANN更接近于人的认知过程。人工神经网络也存在一些不足,它的训练、识别时间较长、动态时间规整能力较弱并且不容易实现。

3 语音识别的应用和前景

如今的科技领域,几乎每天都有新的技术,新的研究成果出现,而语音识别也是这科技研究的一热门领域,也应用到了人类生活的方方面面。

语音识别的应用非常广泛,语音输入技术的出现,可以使人们通过说话,而非手动输入来作出正确的响应,这样使输入变的更加简单,提高了工作学习的效率。语音识别技术可以应用于汽车,可以使驾驶员用语音指令操纵车载设备,提高汽车驾驶的安全性和舒适性。将语音识别、语言理解与大量的数据库检索和查询技术相结合,就能够实现更轻松的信息查询方式。比如,图书馆的资料信息将能够对来自用户的语音输入进行理解,并将它转化为相应的指令,从数据库中获取结果并返回给用户。这种技术同样可以运用于银行服务、医疗服务等方面。语音识别技术还可以应用于口语翻译,例如,可以让与聋哑人对话的对方带上一个智能语音识别的微型摄像装置,或者给聋哑人带上一种特制的手套,然后,就可以通过语音合成技术和语音识别技术将手语翻译成声音语言,同时,系统还能够完成将正常人的语言翻译成聋哑人的手语,这种口语翻译一种语音输入翻译为另一种语言的语音输出。除此之外,语音识别在军事,航空等领域也有广阔的应用空间。语音识别将不断发展,不断丰富人类的生活。

参考文献:

[1]赵力.语音信号处理第2版[M].北京.机械工程出版社,2009(05).

[2]何彦斌,杨志义,马荟.一种基于HMM的场景识别方法[J].计算机科学,2011(04):254-256.

[3]吕云芳,基于模板匹配法的语音识别系统研究与基本实现[D].天津:河北工业大学,2005.

[4]刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004(03):507-510.

第6篇

不过一旦我们离开了办公室,许多人不假思索地向智能手机发出语音命令,无论这意味着语音拨号手机、向谷歌报出搜索词语,还是询问Siri今日天气如何。

市场调研机构Opus Research的高级分析师兼创始人丹?米勒(Dan Miller)表示,提供语音技术的公司已投入巨资,研发“个人数字助理”概念,比如苹果的Siri以及出现在许多谷歌手机上的谷歌语音操作(Google Voice Actions),它们懂自然语言命令。他表示,实际上最近在语音识别技术方面的突破大多出现在移动设备端的基于云计算的自然语言搜索领域。

主要进展就是,语音工具现在离用户更近了――出现在我们日常使用的手机和平板电脑上,许多工具在云端使用,这提供了立即处理功能和不断扩展的语言数据库。不像老式的桌面端软件,这些新工具不需要语音训练,这归功于算法方面取得的进步。

当然,今天的语音识别技术并非尽善尽美。即使在移动设备上,语音识别软件也并不适用于每个人。而有些自然语言句子仍然让智能化程度最高的语音控制系统都犯难,比如“告诉我的老板我开会要迟到”。Nuance、微软和苹果等公司已建立了庞大的语言数据库,供自己的语音识别产品使用。但即使在今天,这类软件有时还很难懂得牛肉制品“汉堡包”(hamburger)与德国城市“汉堡”(Hamburg)之间的区别。

米勒说,我们需要在云端运行更高程度的人工智能。他说:“我们离目标越来越近。各个层面都面临挑战,但正在取得进展――不过可能永远不会尽善尽美。”

可是,虽然越来越好的结果正在促使移动设备采用语音识别技术,但这项技术在工作场所还没有产生太大的影响:步入美国的随便一个企业园区,很难看到有员工在下达语音命令。我们将探讨什么因素在阻碍语音识别技术,并介绍这项技术在办公桌前和办公室都有望造福员工的几个方面。

工作站前的语音

对于视力欠佳的用户或患有重复性劳损(如腕管综合症)的那些人来说,通过语音控制电脑大有意义,可用于浏览及操控界面和应用程序、进行搜索以及口述内容很长的电子邮件和工作文档。其他用户也能从中受益,尤其是打字很慢的人、移动用户以及想记录会议纪要的与会人士。

米勒表示,该技术现在就出现在世人面前。基本的语音控制功能多年前就内置到Mac OS X和Windows中。今年夏天,苹果将为其OS X美洲狮版本添加语音到文本口述功能。去年,谷歌往台式机和笔记本电脑上的Chrome浏览器引入了最初出现在移动设备上的语音发起的搜索这一功能。

至于更高级的口述和个人电脑控制功能,专用的语音识别软件(如Nuance公司的Dragon NaturallySpeaking)这些年来逐步改进。在美国某杂志的测评人员拉蒙特?伍德(Lamont Wood)进行的测试中,最新版的NaturallySpeaking Premium从语音到文本的转换准确率超过99%。

伍德表示,对他来说,通过语音写东西的速度大约2倍于通过打字写东西。其他用户获得的效果有所不同,这取决于他们的打字速度以及使用语音软件的熟练程度。他还指出,使用最新的降噪耳机意味着这种软件不会受到背景声音的困扰,在过去这常常是个问题。

那么,为什么没有更多的人通过语音与电脑进行交互呢?米勒说,人们往往很怕难为情。在办公室环境,不是每个人都习惯于脱口说出自己的想法和言语,要是只有少数人在这么做,更是如此。

不过,他认为移动设备语音搜索有助于让语音技术总体上更受欢迎。他表示,最近的一项调查显示,11%的调查对象称自己习惯于将Siri用于语音搜索。目前这个比例并不高,但是随着越来越多的人采用,而且越来越习惯,在办公室使用语音应用软件对许多人来说似乎更加切实可行。这将遵循总体趋势:人们先在家里或私下使用技术,然后希望在工作场所也能使用。

此外,研发人员在探究语音的新用途,尤其是在游戏和娱乐领域(比如在Xbox上开始播放电影)。语音命令在各个场合似乎都很自然,这只是个时间问题。米勒说:“人们很快会发现,同样可以通过语音控制CAD软件、个人电脑及其他个人设备和办公工具。”

值得关注的是,语音硬件在办公室已经很普遍。任何一台新购的办公笔记本电脑都已经内置了视频会议功能,带网络摄像头和高品质麦克风。当你步入许多公司的会议室,会看到带高级麦克风的免提电话。新机型甚至会对准讲话的那个人,降低背景噪声。

J. Markowitz咨询公司的著名语音技术专家朱迪思?马科维茨(Judith Markowitz)也认为,硬件不是阻碍语音技术在办公室流行起来的因素。他表示,问题在于让自然语言命令得到更广泛的应用。而自然语言命令只是另一种交互方式,就像我们敲打的键盘或点击的图标那样。

她说:“语音无法查明是否存在过热问题,也无法提醒你有约会。那是后端系统或应用软件的任务。Siri的语音识别部分也没有这种功能。自然语言理解能力、人工智能和应用程序的功能共同造就了Siri这款出色的个人助理。语音技术把语音输入转换成Siri的后端及其他iPhone应用软件能使用的一种形式。”

马科维茨表示,如果开发人员决定为企业应用软件添加语音命令和声音提醒,语音在办公室就派得上用场。米勒赞同这个观点,不过他指出,这有点像先有鸡还是先有蛋的情况。开发人员将语音功能添加到应用软件之前,希望知道企业环境的用户习惯使用的语音(而且不会妨碍同事),但是只有这些功能广泛出现,用户才有可能习惯使用它们。

米勒表示,想让语言更被办公室环境的用户所熟悉,一个简单的方法就是为企业应用软件添加语音提醒。比如说,应用软件可能告诉你数据中心存在一个问题,而不是显示文本提醒信息。用户可以根据需要,将提醒由语音方式改为文本方式。

当然,两位专家都一致认为,语言并不是在每种计算环境下都是最合适的输入方法。它给艺术家、摄影师、视频编辑和程序员带来的帮助不像给普通的办公室员工、管理人员和IT人员带来的帮助一样大。Photoshop中精细的像素级编辑可能根本无法得益于语音输入,不过人工智能可能会发展到这个程度:我们说“修复照片的左下角1/4部分”,Photoshop就会进行相应的操作。

办公室周围的语音

Nuance公司总经理彼得?马奥尼(Peter Mahoney)认为,遍地开花的云计算将有助于推动语音技术,从电脑扩大到工作场所的其他地方。比如设想一下:能够使用内嵌式麦克风在会议室口述电子邮件,或者坐在大厅等待时查阅日程表,哪怕你把移动设备落在办公桌上。

他表示,这一幕要成为现实,语音系统就要连接到其他办公室系统。比如说,语音系统可能连接到公司的联系人和日历系统,知道你的会议日程表(及其他与会者的日程表)。它还可能连接到建筑物的安全和网络管理系统,那样它能告诉你是否在办公室、登录到办公电脑上。

互连系统可以在白天收集关于你的数据,而且正如人的大脑保留短期记忆那样,它会确定你的具体背景。这可能意味着,语音系统知道你晨会要迟到,因为你没有登录到电脑上;它可以查阅你的会议日程表,找到相应的一个或多个联系人,告知你会迟到。

马奥尼表示,如今这些信息往往是孤立的。但他预测,在今后一两年,语音技术会逐渐变得有更强的互连性。“它可能会先联系日历程序,知道你要会见约翰,然后日历程序会通过语音联络联系人数据库。”

米勒表示,许多公司已经在现有的系统中拥有关于联系人和角色的信息,比如活动目录列表和人力资源数据;许多公司还有内部建筑图。那么,到底是什么因素在阻碍这一切呢?

马奥尼表示,自然语言命令正在改进,但系统不是足够清楚地明白信息的上下文。他说:“需要构建数据模型,找到人们可能会问的前100个问题,然后找到合适的信息源,以明白那些问题,比如地图应用软件。”毕竟,这与Siri等虚拟助理在移动设备上进行的操作没什么太大的不同:查询不同的信息源(基于云和本地),找到相关信息,发送提醒信息,等等。

马奥尼设想,随着互连系统在将来扩大语音技术的应用范围,它们还有望改进语音软件的准确性和理解能力。借助无处不在的云连接,语音系统可以根据你所在的位置、所做的事情、身边的人以及接下来要做的事,明白你想表达的意思。“即使你没有明说,系统也知道你想表达的意思。”

链接:语音应用软件如何知道你说的是什么?

Opus Research公司的丹?米勒表示,今天的语音识别系统使用统计语言建模,这本质上是一种最佳猜测,结合你整个句子的上下文,猜测想要说的意思。比如说,今天的系统借助前后单词,知道你想说的是“you’re”(你是),而不是“your”(你的)。

要是说话者口音重,或者采用罕见的方言,这些系统还是经常无能为力。为了明白这些人说的话,语言系统必须建立一个发音库、去除任何背景噪音,并不断拿所说的单词与已正确识别的那些单词进行比对。

据语音技术咨询公司NewSpeech的总裁比尔?肖尔茨(Bill Scholz)博士声称,方言和重口音的主要问题是,语音程序并不分析声音模型以寻找语音方面的变化。他表示,典型的语音合成器可能有几百万个声音样本,但这还是不足以应对各种方言、不常用的俚语或含糊的话。不过,随着系统不断积累更多的语音数据,模型会日趋改善。

第7篇

关键词 机器人 语音识别 声学模型 语音特征参数

中图分类号:TP242 文献标识码:A

1语音识别技术的研究意义

人们使用的声音语言是一种人在特定高度思维和意识活动下的产品。语言是人类最直接以及最理想的交流方式,也是人机通信是最方便的方式。在机器人发展的高级发展阶段中,机器人的智能语音识别与人类的活动是密切相关的,有声语言的人机交互信息成为重要的手段。例如,语音识别获取外界信息很自然,没有特殊的训练方法,随着机器人技术的发展和广泛应用,有越来越多的机会来接触人类和机器人,所以人们希望通过语音识别和机器人去处理,不管谁能能准确安全,方便地操纵机器人。机器人和人类之间的信息交互,表现在两个方面,一是对更高层次的机器人操作,方便软件的设计开发,这种多为教学机器人,另一种是在实际操作的要求下完成信息交互任务的机器人。智能机器人作为机器人技术发展的高级阶段,其发展趋势是:不仅要求机器人具有高度的自治能力,还要使机器人和人类之间的协调也具有一定的智能性。这就要求机器人具有不同的高性能主动做事能力,而不是被动地接受任务,为了实现这一目标,自然语言作为人机信息交换将发挥越来越重要的作用。目前,智能机器人已成为机器人研究领域的一个热点。工业机器人是智能机器人的一个重要研究领域。当今,工业机器人的发展方兴未艾,巨大的市场潜力,使真正的工业机器人的已经在市场上崭露头角,以满足人们日益增长的需求,我们不能没有一个高性能的语音识别系统。由于工业机器人是面向生产实际的需要,最好的工作方式是让机器人能顾听懂最常见的人类语言,完成指定的工作,并能与人交流。机器人语音识别是机器人研究领域中的语音识别应用,最终的目标是让机器人了解人们的口头语言,然后按照人们的命令来行动或反应,从而形成一个良好的人机对话系统。为了能够进一步推动智能机器人的开发应用,因此,在语音识别机器人的研究领域中,机器人语音识别系统是工业机器人的实际推广应用,具有重要的意义。

语音识别技术在智能机器人中的应用已经有很多年的历史,作为智能机器人的一个分支,工业机器人得到了迅速发展,工业机器人通过语音识别从工业噪声中提取有效的语音命令。为了实现机器人在一些特殊工业环境中工作的目的,机器人要能够识别命令意图。语音识别技术,可以实现人机对话,从而让机器能模仿人类完成所有工作的分配,使其在各行各业中能够得以应用。目前所面临的实际问题是:噪声和干扰环境下对大型工业机器人的语音识别有严重的影响。在机器人识别领域,工业环境中的实时性是一个非常重要的任务。机器人在工业环境下应用的听觉识别是使智能机器人发展速率低的瓶颈。

2语音识别系统的发展

2.1语音识别系统的发展方向

语音识别系统是基于一套应用软件系统的硬件平台和操作系统的一些。语音识别一般分为两个步骤。第一步是学习或培训。这一阶段的任务是建立基本单元的声学模型来进行识别和模型的语音语法分析等。第二步是识别或测试。根据识别系统的类型可以满足一个识别方法的要求,使用语音分析的方法来分析语音特征参数,并建立了比较和测量系统模型,根据一定的标准,鉴定结果。

语音识别系统的应用可分为两个发展方向,其中一个是大词汇连续语音识别系统,主要应用于计算机的听写机,以及结合电话网或互联网的语音信息服务系统,这些系统是在计算机平台上的一个重要发展方向。其次是应用的小型化,便携式音频产品,如无线移动电话的拨号,语音控制车载设备,智能玩具,家用电器和其他方面的应用的远程控制,这些应用系统大多采用特殊的硬件系统来实现,特别是语音信号处理芯片和语音识别芯片,最近几年快速发展,为其广泛应用创造了极为有利的条件。

2.2语音识别系统的模型与模式

语音识别系统的核心是声学模型和模式分类。首先通过学习算法,训练语音声学模型的特点是通过学习过程来生成声学模型,这是识别潜在的模型的前提,是最关键的语音识别系统的一部分。声学模型的目的是提供一种有效的方法来计算特征向量的声音序列和每个发音模板之间的距离。人的发音在每一刻发音之前和之后都会受到影响。

为了模仿自然连续的协同发音和识别不同的发音,通常需要使用复杂的声学模型。声学模型和语言的发音特点的设计是密切相关的。声学模型单元大小与单词发音,音节模式和音位语音训练数据大小有关,故要求其系统识别具有很大的灵活性。大词汇量语音识别系统,通常采用较小的单元和少量的计算,该模型只有较小的存储容量,减少训练数据的数量,但相应的声音定位和分割问题就显得更加困难,规则识别模型变得越来越复杂。通常大型模型中识别单元包括协同发音,这有利于提高系统的识别率,但训练数据也相对增加。必须根据不同语言的特点来识别词汇,词汇量大小决定单位大小。

参考文献

第8篇

此外,对于超声科等医技科室,由于医生工作的特殊性,大多通过“一对一”聘请专业录入员的方式提高检查报告录入效率。有些医院为了节约人力,让医生把给病人检查时的语音通过录音设备录制下来,后续通过录入员测听音频文件进行转录,实现一个录入员服务多个医生,以此在一定程度上节约人力,但同时也延长了输出检查报告的时间。 在电子文本的录入过程中基于模板填写具体信息工作量还是比较大的。

另外,模板仅能解决一些常规情况的描述,如果完全按照模板填写,对每位患者的情况记录就缺少了个性化描述,不利于后续诊断使用。为提高文本录入效率,有些医生会使用“复制”、“粘贴”方式,通过在相似患者的病历上进行修改完成病历记录,但有漏改、漏删情况,这种方式在很大程度上增加了病历记录的出错率,对医疗文本录入的准确性是一个比较大的挑战。

语音识别技术在医疗领域的应用越来越多

语音识别技术在欧美国家医疗领域已使用将近10年,主要用于节约医生电子文本录入的时间,降低文本录入工作难度,提高医生工作满意度,让医生把更多时间和精力用在与患者及家俟低交流、为更多患者诊断等事情上。

美国Nuance公司的英文语音识别技术及电脑辅助病历抄写系统,医生可使用掌上移动型设备将病患看诊状况口述下来,存成语音档案,直接传送到语音识别服务器,10小时的语音可在5分钟内完成转录,大大缩短音频文件转录文本的时间。皇家飞利浦电子公司推出的面向医疗领域实时语音识别的专用麦克风,表面采用符合医疗专业要求的防菌抑菌材质,并定制了针对实时语音识别所需的声学硬件模块,使医院工作站实时语音识别实现成功应用,并已在欧美医院成功推广。在放射科等文本录入工作量很大的医技科室尤其受到欢迎。

从统计资料看,美国临床中使用语音识别录入的应用比例已达到10%~20%,主要用于放射科、病理科、急诊室等部门,有效控制电子文本记录及诊断报告生成时间和质量,明显提高工作效率。

语音识别技术是理想的人机交互方式之一,它能够让机器通过识别和理解过程把语音信号转变为相应的文本或命令。北京协和医院在国内首先提出使用语音识别技术录入医疗领域电子文本时,医生纷纷表示担忧,在国内的医疗中语音识别技术的使用和推广面临以下几个难点。

目前国内主流的HIS系统已做了大量工作减少医生输入病历、医嘱时的工作量,如提供大量结构化的病历。医生已习惯这种工作模式。通过语音识别来录入电子文本,尤其在超声科、门诊等环节,医生需要一个熟悉过程。

国内医生的工作环境较复杂,口音等问题也较国外更加突出,医疗特殊单位特殊符号较多,如何保证识别的准确率,让医生用的更加流畅,也是这个项目面临的重要挑战之一。国内移动医疗的趋势越来越明显,基于移动端小屏幕的文本输入一直是语音识别应用致力于解决的问题。如何保障医院复杂环境下移动端的语音识别效果是需要探讨的问题之一。

由于医疗行业的专业性较强,每个学科差异较大,所使用的信息化系统也比较分散,如影像科使用PACS,内科使用HIS等。需要录入文字的工作量较大,但使用的信息化系统较多,要求提供的语音录入文本解决方案,需同时支持多个信息化系统使用,且最大限度降低与原有系统的耦合性。

以上问题,经过为期1年的医疗领域语音识别应用探索和实践,都得到较好解决,超过95%的中文医疗垂直领域语音识别准确率已达到实用水平,中文医疗语音识别技术探索应用方案得到北京协和医院医生认可。

北京协和医院语音识别应用探索和实践

医疗语音识别技术的应用,能将医生口述的语音转成准确度高、完全格式化的初步文件,医生可快速加以核对、编辑,每天可节约1小时左右时间。医生普遍认为语音录入病历可提高文字输入效率,降低工作难度,从总体上提高医院收容处理病人的能力,同时缩短病人的无效等待时间,增加病人满意度。

针对中文医疗语音识别的技术难点,北京协和医院做了很多探索实践工作。

一是定制医疗领域语言模型:针对各科室业务进行梳理,整理了超过30G的医疗文本资料,并对这些资料进行分类、检索等处理。使得定制语音模型覆盖各个科室常用的病症、药品名称、操作步骤等关键信息,使语音识别准确率超过95%的水平。 二是定制个性化语言模型:不同科室的医生在录入医嘱时说的话也不同。北京协和医院语音录入系统和用户的账号系统绑定。医生登录HIS时会加载所在科室的语言模型,这样就可以有效降低模型大小,提高识别准确度。同时医生也可根据自己的使用习惯,向系统中添加自己常用的词汇。 三是一体化私有建设:实现一套私有化部署的语音云支持多渠道多终端的一体化建设。除支持HIS、PACS等PC端应用,还支持移动查房等pad端应用,真正实现跨平台的多渠道互联互通应用,大大降低医疗信息化建设成本。 医疗语音识别系统采用分布式计算,具有高健壮性、高度灵活性、高性价比等特点,主要包括操作系统层、引擎层、资源包和管理工具4个层次。操作系统层提供开发接口,以及开发人员关注的接口定义、功能和使用方法;引擎层提供核心的语音处理功能,作为应用接口的功能实现者;在引擎层之上提供覆盖医疗领域的资源包,为科室提供语音识别优化的功能。同时系统完美地支持传统API调用和手机APP开发,为医院原有信息化系统提供了相关接口和SDK。

北京协和医院医疗语音识别应用效果初现

据了解,医疗语音识别已在北京协和医院病房、医技科室、手术休息区进行了尝试使用。为更好地测试语音识别效果,北京协和医院组织医生进行了语音识别系统测试和主观体验,随机抽样了135例样本进行精确统计。

已上线科室使用医疗语音识别系统的医生表示,该系统的语音识别效果较好,可以有效提高工作效率,降低工作强度,减轻工作量,尤其对长段信息、自由医嘱录入的效果明显。超过50%的大夫认为语音识别技术每天可节约1小时左右时间。超过90%的大夫希望使用语音录入方式,以提高工作效率。

第9篇

关键词:英语口语;语音识别;英文朗读;评分机制

语音识别技术使人与机器的交流成为现实,它开创了口语移动学习的全新教育方式,受到越来越多的关注。借助互联网,移动学习以其学习时间灵活,学习内容丰富、精炼且片段化等特点,开辟了学习的新理念,让口语学习真正摆脱了时间和空间的限制,使任何人在任何时间、任何地点根据需要进行自主学习成为可能。目前,已有的基于PC的智能英语学习软件,能提供基于计算机的辅助技术,让学习者及时得到发音质量评分的智能化功能,但是基于手机端的口语学习应用不多。

本终端是一款基于Android系统开发的,进行英语口语学习的安卓语音软件。产品结合Google语音识别技术,使用GPRS或WiFi进行移动终端与Google云服务端之间的数据交流,并通过对语音识别结果的处理,最终设计成一个可以进行英语口语专线训练和自主训练的应用Oral Storm。

1 研究基础

Android平台自底层向上由四个层次组成:Linux内核层、Android运行时库与其他库层、应用框架层、应用程序层。它采用软件堆层(software stack),又名软件叠层的构架,主要分为3部分:底层以Linux内核工作为基础,由C语言开发,只提供基本功能;中间层包括函数库Library和虚拟机(virtual machine),用C++开发,最上层是各种应用软件。

2 应用架构及功能说明

专项训练模块主要是对英语口语比较重要的四个发音类别进行系统训练,这4个发音类别分别是清辅音、浊辅音、摩擦音和爆破音。在进入训练界面之前,有对各类发音方法和技巧的介绍,利于用户方便快速地学习口语的正确发音。我们将每种发音训练模式中的单词都分成10个小组,这些单词都是由学校专业英语教师挑选的有代表性的词,适合用于英语口语基础训练。用户在进行完每个小组的单词训练后,系统都会对用户的发音作出评价和打分,对经常出现发音错误的单词,用户可以选择保存,用于以后专门的训练。

自主学习模块是用户根据自身实际需求进行训练的板块。用户先输入想要训练的单词或语句,如果不知道如何发音,可以求助于应用中的英文朗读功能。英文朗读功能是将文本转换成语音信号,帮助用户轻松方便地学习每一个英语发音。用户还可以选择性地保存输入的学习内容,方便以后复习使用。

总之,专项训练模块针对学生英语学习中的四大类发音难题设计,通过专题式的学习、测试和智能评分,给用户提供随身的英语单词学习和测试环境;自主训练模块则专注于为用户提供可定制的英语单词学习专题,通过学习内容的自定义给用户最大限度的学习自由度。

3 研究技术

应用功能的实现主要使用了两大技术,获取语音识别技术和语音合成技术。

3.1 获取语音识别技术

单词发音练习需要使用Google语音搜索服务,因此必须判断当前用户手机是否支持该服务,所采用的方法是通过queryIntentActivities()方法,查询Android系统所有具备RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的应用程序,点击后能启动该应用。

在Android语音识别应用研究与开发的同时,Google语音服务需要网络支持,所以也需要判断当前用户的网络连接状况,在类中写一方法check--NetWorkStatus()引用ConnectivityManager cwjManager来判断网络是否连接正常。

3.2 语音合成技术

语音合成技术,是一种将文本转换为语音输出的技术,其主要工作是将文本按字或词分解为音素,然后将音素生成的数字音频用扬声器播放或者保存为声音文件,然后通过多媒体软件播放。

Android手机平台,绑定了英文语音引擎,对英文语音提供内置的支持。要将文本转换为语音,首先要检查TTS数据可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回结果为真,表明TTSEngine可以使用。除此之外,还有语音数据损坏和缺少发音数据等原因导致TTSEngine不能使用,这些因素都要考虑。之后是初始化TTS接口,这部分要设置发音语言引擎setLanguage(Locale.US)、发音音量Len(Volume)等。在这个过程中,还需要检测设置的发音语言类型是否可用。

4 结束语

我们开发的口语学习软件Oral Storm,可为训练单词发音提供专业、智能及终端化的一体化学习和测试环境,专题分类科学、全面,涵盖了爆破音、摩擦音等发音难点,可在专题学习后提供智能评分和语音纠正。用户使用这款应用,可以方便快速地学习英语口语的正确发音。

参考文献

[1] 邢铭生,朱浩,王宏斌.语音识别技术综述[J].科协论坛:下半月,2010(3):62-63.

[2] 詹青龙,张静然,邵银娟.移动学习的理论研究和实践探索[J].中国电化教育,2010(3):1-7.

[3] 周丽娴,梁昌银,沈泽.Android语音识别应用的研究与开发[J].广东通信技术,2013,33(4):15-18.

[4] 涂惠燕,陈一宁.基于语音识别和手机平台的英语口语发音学习系统[J].计算机应用与软件,2011,28(9):64-66.

相关文章
相关期刊