欢迎来到易发表网!

关于我们 期刊咨询 科普杂志

语音识别系统优选九篇

时间:2022-05-04 23:16:29

引言:易发表网凭借丰富的文秘实践,为您精心挑选了九篇语音识别系统范例。如需获取更多原创内容,可随时联系我们的客服老师。

语音识别系统

第1篇

1语音识别系统设计的技术依据

近年来国内教育信息化趋势更加明显,英语教学活动建立信息化平台是师生所需,改变了早期英语课堂模式的不足之处。语音识别是计算机翻译软件不可缺少的一部分,如图1,主要针对不同语言进行识别处理,帮助学生快速地理解英语知识内涵。语音识别技术主要包括:特征提取技术、模式匹配技术、模型训练技术等三大技术,也是系统设计需考虑的重点。

1)特征提取技术。一般来说,语音识别系统辅助功能涉及到收录、处理、传递等三个环节,这也是语音识别系统设计的关键所在。计算机语言与自然语言之间存在极大的差异性,如何准确识别两种语言的差异性,这是翻译软件识别时必须解决的问题。特征提取技术是语音识别系统的基本构成,主要负责对英语语言特征进行提取,向翻译器及时提供准确的语言信号,提高计算机翻译工作的准确系数。

2)模式匹配技术。语音识别系统要匹配对应的功能模块,以辅助师生在短时间内翻译出语言含义,避免人工翻译语言失误带来的不便。模式匹配技术采用智能识别器,由翻译器录入语音之后自主化识别、分析,减小了人工翻译语句的难度。例如,计算机软件建立匹配模型,按照英语字、词、句等结构形式,自动选择相配套的翻译模式,执行程序命令即可获得最终的语言结果,给予学生语音识别方面的帮助。

3)模型训练技术。设计语音识别系统是为了实现教育信息化,帮助教师解决英语课堂教学中遇到的翻译难题,加深学生们对英语知识的理解能力。语音识别结束之后,翻译器会自动执行模拟训练操作,为学生创建虚拟化的语音训练平台,这也是软件识别系统比较实用的功能。模拟训练技术采用人机一体化设计思想,把翻译器、语音识别器等组合起来执行训练方式,快速地识别、判断英语发声水平,指导学生调整语音方式。

2英语翻译器语音识别系统设计及应用

英语翻译器是现代化教学必备的操作工具,教师与学生借助翻译器功能可准确地理解英语含义,这对语音识别系统设计提出了更多要求。笔者认为,设计语音识别系统要考虑翻译器具体的工作流程,事先编排一套符合翻译软件工作的方案,如图2,从而提高人机语言转换速率。语音识别系统设计及应用情况:

1)识别模块。语音识别方法主要是模式匹配法,根据不同翻译要求进行匹配处理,实现英语翻译的精准性。一是在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;二是在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

2)前端模块。前端处理是指在特征提取之前,先对原始语音进行处理,这是预处理操作的主要作用。语音识别系统常受到外界干扰而降低了翻译的准确性,设计前段处理模块可消除部分噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。例如,比较常用的前端处理有端点检测和语音增强。

3)声学模块。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学特征的提取与选择是语音识别的一个重要环节,这一步骤直接关系到翻译器的工作效能,对英语语音识别与学习有很大的影响。因此,声学模块要注重人性化设计,语音设定尽可能符合自然语言特点。

4)搜索模块。英语语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。本次所设计的搜索模块中,其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。

5)执行模块。实际应用中,语言识别系统凭借执行模块完成操作,对英语语言识别方式进行优化择取,以最佳状态完成英语翻译工作。目前,就英语教学中使用情况,听写及、对话系统等是语音识别执行的两种方式,充分展现了翻译器在语言转换方面的应用功能。(1)听写机。大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。(2)对话系统。用于实现人机口语对话的系统称为对话系统,英语翻译器中完成了人机对话、语言转换等工作,全面提升了翻译器操控的性能系数。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等,随着语音数据库资源的优化配置,对话系统功能将全面升级。

3翻译器使用注意事项

语音识别系统就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技。随着高校教学信息化建设时期到来,计算机软件辅助教学活动是一种先进的模式,彻底改变了传统人工教学模式的不足。翻译软件采用数字化元器件为硬件平台,配合远程互联网建立多元化传输路径,满足了英语翻译数据处理与传输的应用要求。但是,未来英语教学内容越来越复杂,翻译器语音识别系统承载的数据范围更广,学校必须实施更新翻译软件产品,才能进一步提升英语智能化翻译水平。

4结论

第2篇

关键词:语音识别;动态时间规整(DTW);数字信号处理器(DSP)

1 引言

语音识别按不同的角度有以下几种分类方法:从所要识别的单位,有孤立词识别、音素识别、音节识别、孤立句识别、连续语音识别和理解。目前已进入识别的语音识别系统是单词识别。以几百个单词为限定识别对象。从识别的词汇量来分。有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)等。从讲话人的范围来分。有单个特定讲话人、多讲话人和与讲话者者无关。特定讲话人比较简单,能够得到较高的识别率。后两者难度较大,不容易得到高的识别率。 从识别的方法分。有模块匹配法、随机模型法和概率语法分析法。这三种都属于统计模式识别方法。

2 系统硬件及组成

2.1 系统概述

语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理,语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。

2.2 硬件构成

本文采用DSP芯片为核心(图2所示),系统包括直接双访问快速SRAM、一路ADC/一路DAC及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH存储器、电源模块等少量电路即可构成完整系统应用。

2.3 系统主要功能模块构成

语音处理模块采用TI TMS320VC5402, TMS320VC5402含4 KB的片内ROM和16 KB的双存取RAM,一个HPI(HostPortInterface)接口,二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort),单周期指令执行时间10 ns,带有符合IEEE1149.1标准的JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一体的模拟接口电路,并且与DSP接口简单,性能高、功耗低,已成为当前语音处理的主流产品。16位数据结构,音频采样频率为2~22.05 kHz,内含抗混叠滤波器和重构滤波器的模拟接口芯片,还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环PLL、主从模式)。TLC320AD50C与TMS320VC5402的硬件连接,如图3所示。

3 结论

本文以TMS320VC5402芯片为核心的系统硬件设计迸行了研究,通过TLC320AD50C对语音信号进行A/D转换,通过TMS320VC5402对语音信号“0”、“1”、“2”进行训练和识别,并由对于灯LED0、LED1、LED2亮来显示结果是否正确;该系统核心识别算法采用动态时间规整(DTW)算法,主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果。

参考文献

[1] 朱铭锆, 赵勇, 甘泉. DSP应用系统设计 [M].北京:电子工业出版社,2002.

[2] 郭华. 自适应滤波算法及应用研究[D].兰州:西北师范大学,2007.

[3] 张雄伟..DSP芯片的原理与开发应用[M].北京:电子工业出版社,2009.

[4] 张德丰. 数字图象处理(MATLAB版)[M].北京:人民邮电出版社,2009.

作者简介

王宇,邵阳学院魏源国际学院电子科学与技术专业学生。

第3篇

自上世纪中期以来,语音教学在语言教学中逐步受到重视,教育部《高等学校英语专业英语教学大纲》对学生的语音能力提出明确的要求,即要求发音正确,语调比较自然,以此目标指导语音教学。语音教学随同外语教学理论、模式的演变也在经历着一系列的变革,教学重点从初期的音素和单词发音,发展到目前着重超切分音,如中信、节奏和语调等(罗立胜,2002)。而语言教学方式也由机械的模仿、重复、跟读、单音纠正发展到今天交际性的练习和自主练习。但是在对新生的语音情况调查中发现,往往这种交际性练习和自主练习存在以下几方面问题:学生水平参差不齐,受母语影响程度不一,大部分中学学习过英语语音但不系统,也不够重视。中学教师因受应试教育的影响,少有时间教授语音发音,经调查,80%的学生称中学学习过程中惟一的语音输入来自英语教师。仅有30%的学生称听过磁带、看过英文电影。语音学习双层面的脱节性和去语境化学习97%学生因高考需要背记过国际音标及其在英语单词中的读音,但80%的学生表示没有进行过系统的语音训练,缺乏语境化教学。自主语音学习效果欠佳,孤立的语音练习很难在实际语言交流中应用。目前,语音课上教师主要帮助学生一对一,对比模仿练习发音,缩小学生在语音认知上母语和目标语之间的差异。课后学生仅能通过模仿有声资料提高语音。标准程度往往由学生自行判断,由于学生听说能力的差异,自行判断发音是否准确是不确定的。本文试图以现代的语音教学技术Reading Assistant语音识别系统的引入探讨语音教学模式的改革。

二、对Reading Assistant语音识别系统有效手段的分析

Reading Assistant语言学习系统由美国科学学习公司研发的,以语言学习理论和过程为基础,旨在通过朗读提高语音、词汇、语法等语言综合技能即“以读促学”,笔者所在西安外国语大学英文学院于2008年9月开始使用该系统,拥有600个账号,仅供一年级新生使用。目前主要用于配合语音课程,辅助完善语音自主学习。根据上述语音教学中存在的问题和应该坚持的教学原则,和以下Reading Assistant的教学特点作一对照,就不难理解该语音识别系统对英语语音学习及语言学习的可行性了。

1.根据Reading Assistant(语音识别)系统的(以下简称语音识别)的设计。实行学生每人拥有一个使用账号,便于展开个性化的、有针对性的指导。满足不同层次学生的要求,在语音教学中众多语言教师发现模仿是提高语音的最有效方法之一,但是模仿什么语音材料,模仿哪种语音,怎样模仿和自主学习能否模仿后是否准确仍有很大的困难,在使用语音识别系统时,学生首先要根据其设定的不同级别,和原有的测试级别自行测试,从精选的不同层次的150篇文章中选择适合自己水平和类别的进行朗读。

每次朗读后根据语音发音有成绩记录,每篇文章可以朗读10次。语音识别系统是建立在建构主意语音教学模式的理论智商,学生是学习的主体,不是被动地接受知识,而是主动地在原有的知识体系中,通过不断地积极实践,构建自己的新的知识和经验。因此在这种长期的语音练习过程中,学生可以根据自己的学习需要“建构”语音学习材料,提高自主学习能力。

2.导入语音练习的语境化,模仿对象的本土化。在实际交往活动中,听、说、读、写不是以孤立的因素和单词为单位进行思想交流的,取而代之的是以综合的句子和更高层次的话语单位进行的,孤立的因素和单词的发音在综合运用中会产生很大的变异,如连读、失去爆破、弱读等影响,因此,语音识别系统通过不同类别的文章(包括科技、生活、文艺、人物传记)等等构建不同的语境,除了传统意义对话中包含的语境外,文章中还涉及各个年龄段,男声、女声等读音。录音及文章内容的选择全部出自母语国家。确保模仿对象发音的准确性。

3.判读过程的准确性和可调节性。根据语音识别系统读音匹配程度的设计,学生在阅读过程中分别会出现完全正确发音、误读、不会读、不准确等情况,并以不同颜色标注。每次阅读完成后,学生可以查看有哪些单词不准确。开始阅读后,每读一个单词就会有不同颜色显示。而在本身阅读中如果出现严重的错读,该识别系统会停止前进,并随机开始正确读音,要求练习者跟读。教师也可以根据自己的界面监控学生朗读过程,随时抽听不同学生的朗读情况。过度的纠错会挫伤部分水平较低学生的学习积极性,因此在开始学习阶段教师可以根据学生各个层次的学习调整不同的匹配度以提高学生学习兴趣。

三、学生对语音识别使用情况及存在的问题

经过对英文学院2008级540名学生一学年使用情况的调查,86%的学生表示自己经常去RA实验室,80%的学生认为RA有助于阅读水平的提高,95%的学生认为RA对语音语调有帮助,90%的学生认为RA对听力有帮助,85%的学生认为RA对整体学习有提高。对于语音识别系统进一步的学习和开发,学生表示除英语专业学生初期应用在语音教学以外,还应考虑继续辅助阅读、写作等课程。而语音识别系统中文章内容选择可以适当考虑本土化,多针对中国学生发音中存在的问题进一步涉及文章和练习。

综上所述,外语语音教学目标不再是僵硬的单音、音素教学,而是融合更多语言交际任务的综合教学,而随着计算机、数字化和语音识别技术的发展,充分利用现代教育技术不仅可以丰富教学内容,更重要的是注意到学生的情感因素,培养学生自主学习能力,让语音教学改变以往依赖性、单一性、枯燥性,使其更具创造性,让以读促学全方位体现在英语学习中。

参考文献

[1]罗立胜等.英语语音教学的回顾及对目前英语语音教学的几点意见.外语与外语教学,2002(10).

[2]顾佩娅等.基于构建主义的计算机辅助项目教学实践.外语与外语教学,2003(7).

[3]陈爱勤,石春熙.英语专业新生语音教学的语境论研究.长春师范学院学报(人文社会科学版),2008(1).

第4篇

关键词 空间增强;谱减法;连续语音识别;自适应;双通道信号

中图分类号 TP393文献标识码 A文章编号 10002537(2014)03006306

虽然自动语音识别(ASR)系统的研究已投入了大量的人员和资金,但是它还不能够像电话一样,作为日常生活的一部分完整地融入到人们的生活当中.其中一个最主要的问题就是自动语音识别系统在噪声和混响环境下,特别是二者混合环境下的识别性能过于低下[1].在大多数情况下,为获得可接受的识别性能,只能依赖于麦克风阵列的使用,即通过使用大量按照特定位置放置的麦克风来获取语音输入和空间信息.大量的ASR研究,使用麦克风阵列得到方向增益,以改善噪声与混响环境中获取信号的质量;采用模式识别技术中的谱减法来消除噪声和处理语音训练集与测试集不匹配问题[2].

在日常应用中,普通用户既不可能随身携带麦克风阵列也不可能精确地放置它们.目前,日常使用的麦克风是与双通道耳机相对应的,它能得到双通道语音信号,却不能得到复杂的空间信息.如果依然采用传统的信号增强方法(例如广义旁瓣抵消技术)来处理双通道信号,以作为语音识别系统的预处理端,那么噪声的消除反而会带来无法接受的语音失真.

谱减法[3]作为另一种消除噪声的技术,可以不依赖麦克风阵列获取输入信号,但是却存在三大缺点:(1)噪声估计误差过大导致噪声消除时语音失真;(2)增强后的语音中含有明显的“音乐噪声”;(3)混响未被处理.

为解决上述问题,本文基于双声道语音信号简单的空间特性,综合使用改进的广义旁瓣抵消空间增强技术和改进的谱减法技术作为语音识别系统的噪声消除和信号放大的预处理端,并基于HTK开发工具设计一个识别性能优异的语音识别系统.

1 系统描述

图1 系统结构

Fig.1 System structure

图1为本系统的整体构架.它由空间增强、谱减法模块和自动语音识别模块3个主要部分构成.

1.1 空间增强模块

因为空间线索是语音识别的主要部分和远场麦克风语音识别的组织焦点,在该ASR系统中,采用PASCAL “CHiME”[4]组织提供的双通道含噪语音信号,利用该信号简单的空间特性可以得到表现优异的噪声估计.

有许多经典的使用麦克风阵列的方法来放大目标信号,例如通过延迟求和方式的波束形成,自适应噪声消除(ANC)以及独立成分分析(ICA).它们使用麦克风阵列得到方向增益,以改善在噪声与混响环境中获取信号的质量.

1.2 噪声消除模块

通常的ASR系统在处理含噪信号时性能大幅度下降,因此,噪音消除是该系统中常见且必须的组成部分.当前主流的噪声消除技术可以分为3大部分.(1)使用时域滤波技术,例如维纳滤波和自适应滤波;(2)尝试还原原始语音谱的谱还原技术,例如谱减法[5]和参数减法;(3)为增强语音结构,有许多基于语音模型的噪声消除技术,例如基于谐波模型的噪声消除.然而,使用这些技术来获得噪声衰减和信噪比的改善,往往会造成语音失真.通常,越干净的噪声消除会导致越严重的语音失真,因此,研究设计一个针对复杂声学环境的ASR系统,在语音失真和噪声消除之间寻找一个平衡点,是非常重要的工作.

1.3 识别系统自适应

通过一些经典的空间滤波和噪声消除技术来处理麦克风阵列在真实环境中获取的声音信号,较直接采集含噪声音,具有更好的听感知质量.但是无论系统设计多么完备,获得的加强声音中依然会有噪声残留和语音失真的问题存在,它们能被正常人轻易的接受和识别,但是目前的ASR系统却不具备这样的能力.当前几乎所有的ASR系统都采用模式识别技术,当测试数据集接近训练数据集时,能够得到非常高的识别精确度.但是噪声残留和语音失真会导致测试数据集完全不同于“干净”的训练数据集,训练和测试不匹配的问题会直接导致ASR系统识别率的降低.

为解决这些问题,前人提出许多的方法,例如模型再训练和自适应,特征变换和归一化[67],建立环境模型和模型特征一体化技术将之使用在自动语音识别模块上,能起到良好的效果.

综合考虑到对上面所述三部分的分析,所有的模块都应该整合为一体,只有通过良好的语音信号预处理和完善的识别系统自适应,才能构架一个更优异性能的ASR系统.

2 系统设计

本文提出一个简洁而具有高鲁棒性的针对CHiME问题的ASR系统.首先,依据双通道信号的空间信息增强它们,然后采用改进的谱减法获得增强信号,作为ASR系统的输入,最终得到识别结果和关键词准确率.

2.1 改进的空间增强

由于存在混响问题,使用传统方法得到双通道信号的空间信息的有效内容非常困难.另外,如果采用传统的信号增强方法,例如基于广义旁瓣相消(GSC) 的波束成型,作为ASR系统的前端,那么噪音消除会带来语音失真[8],会极大地降低ASR系统的识别性能.语音失真是由GSC多路输入抵消器(MC)的窄带自适应滤波器导致的,它既无法良好地消除噪声,同时还消耗昂贵的计算资源.

图2 空间增强

Fig.2 Spatial enhancement

本ASR系统的前端,利用双通道语音信号的优势,移除了典型GSC里的MC模型,使得在空间滤波的同时尽量避免语音失真和降低计算负担(图2).该模块的主要任务是提取参考噪声,而不再进行噪声消除.

4 结论

本文针对语音识别这一交叉性强的学科,打破传统的语音识别系统局限于利用有限的技术,不断挖掘技术潜力,来达到提高性能的研究模式,提出了一种全新的综合性构架,并取得了实质性的成效;考虑到人类听觉的生理情况,结合空间增强层得出的无目标语言的参考噪声,对谱减法模块做了积极的改变.将去除噪声操作从空间增强层移动到了效率更高的谱减法层,将噪声估计移动到空间增强层,使得整个系统的分工更加明确,以降低耦合,提高鲁棒性;使用了倒谱均值归一化实现标准39维梅尔倒频谱系数,为语音识别模块加入基于最大后验概率的自适应训练,提高了训练效率和系统整体性能.

参考文献:

[1] 宋志章,马 丽,刘省非,等.混合语音识别模型的设计与仿真研究[J].计算机仿真, 2012,29 (5):152155.

[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.

[3] 张 满,陶 亮,周 健.基于实值离散Cabor变换的谱减法语音增强[J].计算机工程与应用, 2012,48(29):109113.

[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.

[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.

[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.

[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.

[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.

[9] KAUPPINEN I, ROTH K. Improved noise reduction in audio signals using spectral resolution enhancement with timedomain signal extrapolation[J]. Speech and Audio Processing, IEEE Transactions, 2005,13(6):12101216.

第5篇

关键词:语音识别;数字信号处理器;美尔频率倒谱系数;动态时间规整

中图分类号:TP319 文献标识码:A 文章编号:2095-1302(2012)09-0014-02

Design of voice recognition system based on TMS320C6713

XU Fei-yan1, CHEN Tao2, SUN Xu3, FANG Zong-liang1, LI Li-rong1

(1. Department 2, Anti-Chemical Institute, Beijing 102205, China;

2. Beijing Research & Development Center of Xiamen Jiuhua Communications Equipment Factory, Beijing 100083, China;

3. Chengdu University of Technology, Chengdu 610059,China)

Abstract: Taking the TMS320C6713DSP with floating-point functions produced by Texas Instruments chip as the system core processor and the MSP430 microcontroller as a peripheral controller, a real-time speech recognition system is designed in the paper. The kernel algorithm for the system uses Mel-frequency cepstral coefficients as feature parameters for feature extraction and dynamic time warping (DTW) algorithm for pattern matching. Programming and debugging of the system indicate that the system has good flexibility and real-time capability and improves the performance in noise immunity, robustness and recognition rates. In many areas, it has a practical reference value.

Keywords: speech recognition; digital signal processing; Mel-frequency cepstral coefficients; dynamic time warping

0 引 言

语音识别[1]是一种最为理想的人机通信方式。随着计算机技术的进步,语音识别技术已经逐渐应用于控制、通信、消费等行业[2]。但是,语音识别系统在商品化的进程中还存在着诸如识别速度、系统鲁棒性以及更高的识别率等具体问题。如何提高语音识别系统的这些性能,使系统更快、更稳定地工作是目前研究的重点。本文正是基于这种思想,通过选用德州仪器公司带浮点功能的DSP芯片TMS320C6713(主频为200 MHz)作为语音信号处理的核心处理器,同时结合MSP430单片机作为控制器共同构建硬件系统, 以美尔频率倒谱系数作为语音信号特征参数,结合动态时间规整孤立词识别算法进行模式匹配,设计了一种具有良好实时性和高识别率及鲁棒性的语音识别系统。

1 系统硬件设计

本设计的整个硬件系统是以DSP为核心电路对语音信号进行采集和处理,再经过A/D转换电路把模拟语音信号转换成数字语音信号,然后送入DSP芯片进行匹配识别,最后将识别后的结果通过单片机控制模块外接的两个红绿颜色的二极管进行处理表示,其中红色表示拒绝命令,绿色表示接受命令。系统的硬件平台主要由DSP系统核心处理模块、语音信号采集模块、单片机控制模块、外扩存储器模块和电路等几个模块构成。系统的硬件设计总体方案框图如图1所示。

1.1 DSP系统核心处理模块

作为系统的核心模块DSP芯片采用TMS320C6713,该芯片的主频可达200 MHz。这是TI公司推出的一种新型的浮点DSP芯片,是继定点DSP芯片TMS320C62X系列后开发的。该芯片的内部结构在TMS320C62X的基础上进行了改进,内部同样集成了多个功能单元,可同时执行8条指令,其运算能力可达1G FLOPS。片内具有丰富的外设,如EDMA、EMIF、McBSP、HPI、GPIO等[4]。

TMS320C6713 以其出色的运算能力、高效的指令集、智能外设、大容量的片内存储器和大范围的寻址能力,十分适合对运算能力和存储量有高要求的应用场合。

第6篇

论文关键词:VC,Matlab,实时语音识别,MFCC,DTW,非特定人,MEX

 

1引言

VC和Matlab的混合编程共同运用于语音识别,可以借助VC实现对语音信号的采集,同时通过Matlab强

大的矩阵计算功能,简便化的编程方法,实现对语音

信号的识别处理。

其中,VC主要做语音信号的采集,通过借助于微

软提供的WindowsMultimedia API 开发了在线实时语

音采集程序,实现了人机在线实时交互。

2 语音识别系统概述

语音信号的一般处理过程如图 1所示,其中首先对语音信号进行预处理DTW,其中预处理包括预滤波、采样和量化、加窗、端点检测、预加重等。然后是信号特征量的提取,本文对信号的特征量进行Mel 频率倒谱系数(Mel-Frequency Cepstrum Coefficients)处理。最后通过对已经建立好的参数模板进行对比,测试的依据是失真度最小准测,如本文用到的动态时间规整: DTW(DynamicTime Warping)。

图 1 语音识别过程基本流程图

3 语音信号的采集

语音信号的两个过程为:对语音信号进行实时

的采集,对采集的语音信号做出识别。本文对语音信号的采集是通过VC调用Microsoft的Windows系统中提供了多媒体应用程序接口(Multimedia API)实现。

3.1 用VC生成动态链接库供Matlab调用

通过mex文件来实现VC与Matlab的混合编程。mex

代表 MatlabExecutable。Matlab中可以调用的C或

Fortran语言程序称为mex文件。mex文件是一种特殊的动态连接库函数,它能够在MATLAB里像一般的M函数那样来执行。

VC编译的时候应该包含头文件mex.h。与C中的主函数main()函数一样,mex程序中的开始函数为:

void mexFunction(int nlhs,mxArray *plhs[], int nrhs, const mxArray *prhs[])其中

nlhs指的是在调用函数时返回值的个数;

plhs[]是每个返回值(在MATLAB中都是矩阵)的指针;

nrhs指的是调用函数时的参数个数;

prhs[]是每个参数的指针。

对mexFunction的参数是进行指针操作的,不能用单纯的return返回值。mex程序传送回来的整数数据要变为双精度型数据,才能为其它函数所处理。

3.2 Multimedia API函数介绍

API(ApplicationProgramming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件的以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

MultimediaAPI 函数主要有以下几个:获取音频设备信的函数waveInGetNumDevs(),该函数用于获取当前系统中所安装的音频输入设备的数目。

查询音频设备的能力函数waveInOpen(),该函数的作用是打开波形输入输入设备。

通过CALLBACK_FUNCTION命令来打开设备。录音缓冲区的组织WAVEHDR结构, 一般都是设置双缓存区对语音信号进行平稳缓冲站。开始和停止录音时用到waveInStart()和waveInStop()两个函数。

4 用Matlab实现语音识别过程

4.1 端点检测

从背景噪声中找出语音的开始和终止点这是在很多语音处理应用中的基本问题。端点检测对于语音识别有着重要的意义。本文主要采用短时能量与短时平均过零率双门限结合的方式,来对汉语语音的起止点进行检测。短时能量和过零率分别确定两个门限, 信号必须达到比较高的强度, 该门限才可能被超过。且低门限被超过未必就是语音的开始, 有可能是由短时间的噪声引起; 高门限被超过则可以基本确定是由于语音信号引起的。

%每帧过零率

4.2 特征函数的提取

语音信号完成分帧处理和端点检测后,下一步就是特征参数的提取。目前在语音识别中较为常用的特征参数是线性预测倒谱系数(LPCC,LinearPredictive Cepstrum Coefficients)和Mel频率倒谱系数(MFCCDTW,Mel-FrequencyCepstrum Coefficients),这两种特征参数都是将语音信号从时域变换到倒频域上。LPCC从人的发声模型角度出发,利用线性预测编码(LPC,LinearPredictive Coding)技术求出倒谱系数,而MFCC则是构造人的听觉模型,把通过该模型(滤波器组)的语音输出为声学特征,直接通过离散傅立叶变换(DFT,DiscreteFourier Transform)进行变换。本文采用MFCC方法。Mel频率倒谱系数,即MFCC为:

其中,S(m)为语音信号通过预加重、离散傅里叶变换、通过MEL滤波器、并通过对数能量处理等得到的对数频谱。

4.3 非特定人孤立词语音识别算法

通常,语音识别的方法可以大致分为三类,即模板匹配法、随机模型法、和概率语法分析法。这三类方法都属于统计模式识别方法。其中模板匹配法是将测试语音与参考模板的参数逐一进行比较和匹配,判决的依据是失真测度最小准测,随机模型法是使用隐马尔可夫模型(HMM,HiddenMarkov Model)来对似然函数进行估计与判决,从而得到相应的识别结果。而概率语法分析法利用连续语音中的语法约束知识来对似然函数进行估计和判决,更适用于大规模连续语音识别。本文用小词汇量的DTW方法。动态时间规整(DTW)是采用动态规划(DP,DynamicProgramming)技术,将一个复杂的全局最优化问题转化为许多局部最优化问题DTW,一步一步地进行决策。假设时间规整函数为:其中,表示时间规整函数中的第个匹配点对

这个匹配点对是由待测语音的第个特征矢量和参考模板第个特征矢量构成的,其中两者之间的距离(或失真值)称为局部匹配距离,记做,处于最优时间规整情况下两矢量的距离称为全局匹配距离,记做,表达式如下所示:

由于DTW不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的两矢量的匹配距离是累计距离最小的规整函数,这就保证了它们之间存在最大的声学相似特性。

5 结束语

在本语音识别系统中, 设定采样率为11025Hz,帧数为300帧,帧长为240点,则最长的语音段长度不会超过300*240/11025=6.5秒。采样样本为男女各5个人的数码语音资料, 实验表明, 系统达到了较好的实时性和较高的识别率。由于Matlab功能强大, 在处理中可直接利用许多现成的函数, 编程方便, 结果可视化也容易实现。

参考文献

[1]杨熙,苏娟,赵鹏.MATLAB环境下的语音识别系统[J].电声技术,2007,31(2): 51-53.

[2]龙银东,刘宇红,敬岚,等.在MATLAB环境下实现的语音识别[J]

第7篇

以下是来自现场的报道。

市场变化提出新需求

搬迁至新物流中心

神田业务支持公司成立于1974年,当时与长崎屋合资,主要负责服装配送。该公司在日本最早引进了大型托盘输送机,曾一时成为业界热议的话题。2002年,3家分公司合并后统一命名为神田业务支持公司。

公司现任总经理吉林正和先生当时已经进入公司,他回顾公司的发展历程时说:“30多年来,公司经营的物流业务几乎都集中在服装领域,因此积累了丰富的服装物流经验。近些年,公司的物流设施及分拣设备等已开始老化,为此建设了新的物流中心。同时,为适应客户新的需求,我们准备配送服装以外的货物,因此决定引进语音识别系统。”

目前,习志野物流中心处理的货物以服装为主,同时也负责配送鞋类以及其他日用品,据说已接到约20家客户的业务委托。物流中心根据客户订单的要求进行分拣、贴标签等操作,然后向全国配送。

服装类商品主要来自中国大陆及台湾、越南等地,平均每天发送10万件左右,需要投入包括物流中心职员和小时工在内的50~60人从事物流作业,并根据业务量进行灵活调整。

适应市场变化

在公司的旧址茜浜,仓库内的主要设备除了大型托盘输送机外,还有自动分拣机。如果要继续使用这些设备,物流中心一层需要拥有2310平方米的面积,并且老化的设备也需要大笔资金进行维修,如此看来实属浪费。可以说,继续使用大型设备的外部条件发生了变化。

自动分拣机每小时的处理能力达2000件,这是人工作业望尘莫及的。如果不使用分拣机,根本不可能达到2000件/小时的处理能力,那么其他设备也都会闲置下来,其结果将是物流中心无法应对市场的变化。

神田公司经营策划室的松尾健太郎科长谈到:“考虑公司业务范围的变化,我们的方针是保证低成本的同时,新系统要能够应对市场的变化。”

这个新系统就是“语音识别系统”。

选择语音识别系统

耳、眼、手、口总动员

吉林总经理谈到:“在建设新物流中心时,神田面临的最大问题是建设资金,因此我们要控制初期投资。如果使用自动分拣机,至少需要2~3亿日元的资金,但我们的总预算只有1亿日元。而且还要求必须保证订单的交付时间。最终,我们选择了语音识别系统。”

除软件外,新物流中心引进的设备只有挂在腰间的便携式终端和耳机,共25套。包括基础系统改造在内,总投资共6000万日元。

实际上,神田公司从几年前就已开始研究语音识别系统,只不过一直没有对外公开。

新物流中心处理的货物仍以服装为主。通常,以箱(盒)为包装的物品是很容易处理的,数量统计也不易出错。但服装往往装在塑料袋中,既薄又轻,进行拣选操作时,如果工作人员一只手拿着无线终端,另一只手拿着塑料袋,不容易读取条码标签,又容易数错数量。此外,服装的一大特点是颜色、规格多,SKU多,因此,如果使用手持终端进行操作将非常费力。

现在使用语音识别系统,终端挂在腰间,解放了双手,操作人员可以用双手完成拣选作业。操作人员通过耳机得到系统指令的同时,可以立即回应,而不需要“看明细”、“按开关”的动作,能够集中精力进行拣选。

松尾科长说:“过去,物流现场的操作在很大程度上依赖于‘眼睛’,所有终端和明细单都必须用眼睛来判断,如果看错了。就会直接导致发错货。现在有了语音识别系统,其最大的魅力就是通过‘听’接受指令,用‘眼’和‘手’来确认,用‘说’来回应,让两手同时工作。这就是感觉器官的总动员。由此带来工作准确率和效率的大幅提高。”

这也是神田公司选择语音识别系统的初衷。

语音拣选解决方案在世界的发展

回顾历史,在上世纪90年代,日本有几家公司曾引进过语音识别系统,但由于当时的识别能力有限,结果半途而废。之后,经过改良的语音识别系统再度登场,尤其是在欧美物流界颇受欢迎,其中VOCOLLECT公司开始崭露头角。

特别值得一提的是,世界零售巨头沃尔玛把语音识别系统作为标准化配置的系统,在其世界各地的物流中心都在使用。早在3年前,日本国内的沃尔玛旗下的西友・三乡物流中心业也已引进了VOCOLLECT的产品。

此后,众多经销商的市场拓展行动终于开启了语音拣选的世界市场之门。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同时在东欧、南美也逐渐打开市场,目前年销售额近100亿日元,占世界同行业销售的80%。

承担神田公司语音系统建设项目的日本优利公司售后服务事业部矢岛孝安部长说:“人们往往认为只凭借声音并不十分可靠,但VOCOLLECT的产品解决了这一难题。其识别系统和硬件设备组成了堪称完美的系统。”

VOCOLLECT产品的特性

VOCOLLECT日本分公司总经理塞萨尔・西森介绍说,市场上的其他产品大多是把几家公司的终端和软件组合在一起,而VOCOLLECT则根据物流现场的实际需要,从硬件到软件都是自主研发的,具有非常实用的语音识别功能,能够用日语应答就是其一大特色。

如何确保语音识别的精度是使用中的关键问题。塞萨尔・西森总经理认为,要提高语音识别的精度是有前提的。语音识别的基本条件是“指定说话人”和“不指定说话人”,在日本,其他公司都选择了“不指定说话人”,唯独VOCOLLECT公司选择了“指定说话人”。塞萨尔・西森总经理指出,在被噪音环绕的物流和生产现场,“不指定说话人”的方式存在很多问题。

“不指定说话人”即任何人的声音都可能被确认。因为它忽略了每个人声音的差异,那么其识别能力自然低下,特别是在噪音大的场所,附近几个人同时作业,如果别人的声音一旦被确认。必将出现差错。

VOCOLLECT公司的“指定说

话人”的方式,是根据每个人所发出的声音的频率而设定的,具有声音识别功能。这在很大程度上提高了识别精确度。在实际操作中,只要改变用户名、输入ID号,就能够直接调出所需的信息,因此在登录系统后,其他工作人员也可以使用。

当然。每个工作人员初次登录时,都需要经过多次练习,登录加练习的时间大约在20-30分钟。因为设有语音矫正功能,经过几次练习,工作人员就可以熟练掌握。

此外,终端设备的坚固性也非常突出,即使跌落地面,或被踩、被压,都能保持完好无损。这给工作人员带来安全感,可以全神贯注地投入拣选工作。

构建并起用系统仅耗时3个月

神田公司选择日本优利推荐的VOCOLLECT公司的语音识别系统之前,已对该系统的结构和实用性做了全面、细致的调查和论证。

吉林总经理说:“因为我们是首次使用语音识别系统,因此必须进行全面的考察。在考察3家日用品批发商使用该系统的效果时,我们发现该系统不仅能用于分拣,还能用于盘点。这也是我们选择它的一个重要原因。事实证明这个系统是完美的。”

接下来的系统设计,神田公司仅给优利公司和VOCOLLECT公司3个月时间。在此期间,神田为了让员工尽快进入状态,在现场进行实地演示。2008年8月15~16日,公司在搬迁的同时安装新系统,18日就开始正常发货了。

下面介绍语音识别系统的实际应用。

货物初次分拣

1、2、总体分类

语音识别系统主要应用于服装的发货流程。

图1、图2是位于物流中心二层的存储区。每天上午,操作人员根据发货指示,首先进行总体分类,即把当天需要发的货按款式分别集中在台车上的纸箱中。这里的拣选作业是对照产品明细进行的。

3 二次分拣

在相邻的拣选区,货物按照店铺别进行分拣。在图3中,左边是使用手持终端进行扫描,右边是使用语音识别系统进行拣选。

4、5手持终端+输送机

总体分类完成后,把纸箱放到输送机上,按发货店铺的不同,用手持终端逐一进行扫描。

因为每件货物和产品明细都要进行扫描,因此排除了款式错误的可能。但因为是单手作业,尤其对于较薄的服装,产品数量容易弄错。偶尔也会发生无法读取条码标签的情况,或者标签被翻转放置,此时操作起来相当费力。

6、7、台车+手持终端

图6是台车分拣区。台车底层放置了4个空周转箱用于调节高度,上层的4个周转箱分别代表4个店铺,操作人员同时处理4家店铺的货物,操作非常快捷。当然。通道,必须留有足够的宽度,以保证台车通过。

使用语音识别系统进行拣选

8~11 语音识别拣选

前面提到的输送机传送来的周转箱到达此处,按照发货店铺的不同依次进行拣选。此时操作人员通过耳机接收指示,用麦克进行回应,在“是”、“下面”的应声中进行分拣作业。不仅双手可同时操作,并且不需要看手持终端显示的数据,只需用眼睛确认发货明细上的代码即可。

操作人员听到的是什么样的指示呢?是商店代码、货物代码以及拣选的数量等,速度很快,听到指示后必须立刻做出回应。按照操作人员的话说:“声音的节奏逐渐变快,我们已经习惯了这样的速度。”由于每个人的听力和反应速度存在差别,物流中心根据这一差别安排操作人员的岗位。

操作人员做出回应后。下面的指示随即就到。在这种快节奏中,几乎没有等待指示或闲下来的时间。

塞萨尔・西森总经理说:“如果是使用手持终端,必然存在等待指令的时间。使用语音识别系统后,节省了操作时间。一旦有空闲的时间,操作人员反而会不习惯。”

VOCOLLECT的设计中包含了劳动心理学原理,因为操作人员的腰间携带了便携终端,每个人可以调节适合自己的速度。

系统投入使用后,操作人员的熟练程度不断提高,人均处理能力由原来每小时200~300件提高到500~700件。

此外,夏装和冬装有所不同,操作效率也存在差别,但结果却比预期提高了50%。

12、13、不同商店的发货明细及标签

根据语音指令做好的发货明细上,标有货物代码和商店代码,暂时贴在货箱的外面(图12),待货箱装满后,再把发货明细放入箱中,然后把箱子放到输送机上。

14、检验

通过语音识别系统拣选的货物。因为没有读取条形码,因此在包装前需要检查一遍。数量少时只要确认条形码即可,数量多时全部都要进行检验。

15、无线传输

通过2.4GHz的无线电波频率,无线终端与服务器联网后,进行数据交换。

16、充电

在办公室一角的架子上,放置了25台充电器,以便为终端进行充电。每次的充电过程需要8小时。

17、语音系统的管理

在同一办公室内设置了语音系统的管理器。画面上显示的是神田公司的WMS与合作公司VOCOLLECT的管理过程。

贴标签、包装、发货

18、19、贴价格标签、过检针

贴价格标签、过检针的操作也在物流中心二层完成。

20、21、搬运发货箱

货箱打包完毕后码盘,托盘货物用叉车搬到垂直输送机,送往一层出货区。

22、23、装车

在出货口,货物装上卡车,送到各店铺。

目前,像这样成功应用语音识别系统的案例在日本还不多见。吉林总经理对于初次引进语音识别系统是这样评价的:对于习惯了以往传统分拣方法的操作人员来讲,他们完全没有不适应的感觉,反而更喜欢现在极富节奏感的作业。

“要通过改善工作流程,使所有人员都适应语音识别系统,不断提高工作效率。我们不要求最好,只追求更好”。吉林总经理说。

第8篇

关键词:语音识别;MYASR系统;XML语言

1.引言

在小词汇量的语音识别系统中,主要分为孤立词识别和基于词网模型的连续语音识别。前者通过词发音端点分割算法,把每个词的发音从整段语音中分割出来,然后再到模型集中去寻找最佳的匹配作为识别结果。XML同HTML一样,都来自SGML(标准通用标记语言)。SGML是一种在Web发明之前就早已存在的用标记来描述文档资料的通用语言。但SGML十分庞大且难于学习和使用。鉴于此,人们提出了XML 语言,它具有可扩展性、灵活性、自描述性、简明性的优点。

在MYASR系统中有多个功能模块,每个功能模块都有各自的参数,采用XML语言对这些参数进行描述更加直观,可读性更强。例如,MYASR中MFCC编码的XML描述如下:

<mfcc_params>

 <type_mask>  MFCC_0_D_A  </type_mask>

 <sample_rate> 16000 </sample_rate>

 <win_size>  400 </win_size>

 <win_shift> 160 </win_shift>

 <fft_size>  512 </fft_size>

 <low_freq>  200  </low_freq>

 <high_freq> 7000  </high_freq>

 <pre_enphasis> 0.97 </pre_enphasis>

 <mel_num>  26  </mel_num>

 <cep_num>  12  </cep_num>

 <cep_lifter>  10  </cep_lifter>

</mfcc_params>

MYASR通过XML解析器将XML元素中的参数提取出来,然后再传递给各个功能模块。当需要增加参数时,只要在XML文件中适当位置增加一个元素(Element)即可,具有良好的可扩展性。

3.系统开发

MYASR系统的模块结构如下所示:

3.1前端处理

MYASR的前端处理包括以下功能模块:自动增益控制(AGC)、噪音消除、预加重处理。其相应的XML描述如下:

<preprocess_bat workdir="d:worktmp">

 <params>

  <frame_ts> 20 </frame_ts>       //帧长

  <agc>

   <level> 0.5 </level>  

   <max_gain> 2.0 </max_gain>  //最大增幅

   <min_gain> 1.0 </min_gain>   //最小增幅

  <agc>

  <pre_enphasis> 0.97 </pre_enphasis>//预加重系数

  <denoise>1</denoise>    //噪音消除

 </params>

 <transcrip> pretrans.scp </transcrip>

</preprocess_bat>

其中属性"workdir"表示当前的工作目录,元素<agc>表示自动增益控制参数,元素<pre_enphasis>表示预加重参数,元素<denoise>表示是否对语音进行噪音消除。元素<transcrip>表示批处理文件,此文件中描述了目标文件名及处理后的文件名,内容如下:

"speech1.wav"  "speech1_dn.wav"

"speech2.wav"  "speech2_dn.wav"

"speech3.wav"  "speech3_dn.wav"

.........

3.2端点分割

在MYASR系统中,实现两种类型的端点分割:句子端点检测,词端点检测。采用的静音检测方法有【2】:基于短时能量、基于短时平均过零率、和基于GMM模型。其XML描述如下:

 <endpoint>

  <endpoint_method> SENT_CUT </endpoint_method>

  <vad_method> GMM_VAD </vad_method>

  <sil_interval> 500 </sil_interval>            //单位为毫秒

</endpoint>

元素<endpoint_method>表示端点分割方法:设置SENT_CUT表示句子端点分割,设置WORD_CUT表示词端点分割。元素<vad_method>表示静音检测的方法:设置GMM_VAD 表示采用基于GMM模型,PW_VAD表示基于短时能量,COS_VAD表示基于短时平均过零率。<sil_interval>元素表示检测对象之间允许的停顿时间,超过停顿时间意味着出现新的句子或词。

3.3特征提取

MYASR系统中目前采用MFCC结合动态差分参数作为特征矢量。将语音文件转换为MFCC编码的XML描述文件如下所示:

 <wav2mfcc workdir = "d:myworkdir">

  <params_xml>mfccparams.xml</params_xml>

  <transcrip> trans.scp </transcrip>

</wav2mfcc>

其中mfccparams.xml是MFC C特征参数的描述文件,内容如下:

<mfcc_params>

 <type_mask>  MFCC_0_D_A  </type_mask>//类型

 <sample_rate> 16000 </sample_rate>  //采样率

       <win_size>  400  </win_size> //帧长

 <win_shift> 160   </win_shift>    //帧移

 <fft_size>  512   </fft_size>   //FFT的窗长

 <low_freq>  200  </low_freq>   //截止的最低频率

 <high_freq>  7000 </high_freq>   //截止的最高频率

 <mel_num>  26  </mel_num>   //MEL滤波器数

 <cep_num>  12  </cep_num>   //MFCC维数

 <cep_lifter>  10  </cep_lifter>   //参数提升系数

</mfcc_params>

其中<type_mask>元素表示特征矢量标志,有6种类型:

表3-1  MYASR中MFCC编码类型

标志

含义

MFCC

MFCC参数

MFCC_0

MFCC参数加对数能量

MFCC_D

MFCC参数及其一阶差分

MFCC_0_D

MFCC参数加对数能量,及一阶差分

MFCC_D_A

MFCC参数及其一阶、二阶差分

MFCC_0_D_A

MFCC参数加对数能量,及一阶、二阶差分

<transcrip>元素中的trans.tsp文件描述了语音源文件及转换成MFCC的目标文件,内容如下:

"speech1.wav"  "speech1.mfc"

"speech2.wav"  "speech2.mfc"

"speech3.wav"  "speech3.mfc"

.........

3.4模型训练

MYASR采用了连续概率密度的HMM模型,模型参数初始化采用了"K-均值分割"算法,参数重估采用"Baum-Welch"算法。其XML描述文件如下:

<hmm_train workdir="d:worktmpmytimit">

 <label_scrip> phones.lst </label_scrip>    

 <featlep_scrip> trainmfcclabep.scp </featlep_scrip>  

 <hmm_params>

  <state_num>3</ state_num >      //HMM状态数

  <mixture>4</mixture>       //高斯分量个数

  <veclen>39</veclen>       //特征矢量维数

  <cluster>GMM_EM</cluster>     //聚类算法

  <feat_flag>MFCC_0_D_A</feat_flag>   //特征矢量标志

 </hmm_params>

 <model_file>modelhmmmodelEM4.xml</model_file> //输出文件

</ hmm _train>

其中,<label_scrip>元素中的文件phones.lst表示要训练的那些词或音子。

<featlep_scrip>元素中的文件trainmfcclabep.scp描述了特征矢量文件及其标注文件,内容如下:

"mfcspeech1.mfc"  "labspeech1.lab"

"mfcspeech2.mfc"  "labspeech2.lab"

"mfcspeech3.mfc"  "labspeech3.lab"

.........

标注文件".lab"中注明了每个单元的发音起点和终点,MYASR将根据标注文件从特征文件中读取特征矢量进行HMM模型的训练。标注文件内容如下:

0    191   sil

191  285   sh

285  358   ix

358  415   hh

415  548   eh

548  646   jh

646  720   ih

720  790   d

790  920   ah

....

其中时间单位为毫秒。

<cluster>元素表示"K-均值分割"算法中对B参数进行重估所采用的算法,有两种选项:GMM_EM表示EM算法,K_MEANS表示"K-means"算法。实验结果显示,EM算法比"K-means"算法具有更好的性能。

<model_file>表示训练输出的HMM模型文件,内容如下:

<hmm_set>

 <params>

  <feat_mask>MFCC_0_D_A</feat_ mask >

  <state_num>3</state_num>

  <mixture>4</mixture>

  <vec_len>39</vec_len>

 </params>

 <hmm >

  <state>

 <mixture> 1.906841e+001 1.900540e-001 ......</mixture> //均值

<var>     2.945649e+001 1.096035e+002......</var>    //方差

<weight>  2.212352e-001 </weight>  

 //权重

           </state>

           ......

</hmm>

......

</hmm_ set >

3.5词网构建

3.5.1 词网模型的双层结构

MYASR中的词网模型分为两层:一层是描述层,主要用于描述词网的结构,包括上下文无关文法和有限状态图;另一层是模型层,这一层由HMM模型构成的搜索网络,是搜索算法的输入。首先由用户定义语法规则,然后转换成有限状态图,最后结合HMM模型集和发音字典将其转化成搜索算法可以处理的模型层搜索网络。

3.5.2 描述层到模型层的转换

在模型层搜索网络中,按节点是否有词输出分为两类:空节点和词节点。空节点中不含有HMM模型,而只是作为词网中的一个过度节点,如起始节点(#START),终止节点(#END),中转节点(#L)都是没有词输出的节点。而词节点则包含了构成这个词的HMM模型。

词网模型的有限状态图转换成模型层搜索网络的过程为:当遇到空节点时,不作处理;当遇到词结点时,在字典哈希表找到这个词,并保存word_id,word_id是这个词在字典哈希表的索引,当搜索结束后,回溯时就是根据这个word_id找到哈希表中对应的词;同时根据这个词的发音,到HMM哈希表中查找子词的HMM模型,然后在这个词结点中创建指向子词HMM模型的指针。转换后的模型层搜索网络如图3-4所示。

    模型层搜索网络构建后,就可以用Token-Passing算法进行搜索。

4 总结

本文在研究语音识别理论的基础上,设计并开发了基于词网模型的连续语音识别系统-MYASR。MYASR提供了丰富的功能模块,使开发一个基于词网模型的连续语音识别应用系统更加方便,同时也是语音识别研究的实验平台。MYASR所采用的XML描述文件,使系统具有良好的可读性和可扩展性。通过在TIMIT语料库上单音子连续语音识别的实验显示,MYASR具有很高的识别性能和实时性能。当前系统只是在Windows平台上,为适应各种应用的需要,在后续的语音识别系统设计中,可考虑将系统移植到嵌入式平台。

第9篇

关键词:语音识别;文本识别;多线程浏览器

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)21-4949-02

语音识别,也被称为自动语音识别Automatic Speech Recognition(ASR),是一门跨越多门学科的技术。早在计算机的发明之前,语音识别就被人们所提出,早期的声码器可以认为是语音识别及合成的雏形。最早的语音识别器是产生于20世纪20年代生产的“Radio Rex”玩具狗,当人们呼唤该产品的名字的时候,它能够从底座上自动弹出来。而最早的基于计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统,该系统的正确率达到98%。

1 C#语言的语音识别及合成的接口

C#是一种安全的、稳定的、简单的、优雅的,由C和C++衍生出来的面向对象的编程语言。C#实现语音识别功能的主要接口有:IsRecoContext接口、IspRecognizer接口、IsRecoGrammar接口、IspVoice接口。

1)IsRecoContext接口:是主要的用于语音识别的接口,能关注不同的语音识别事件,安装或者卸载识别时使用的语法文件。

2)IspRecognizer接口:一个程序拥有两种不同的语音识别引擎(ISpRecognizer)类型。一个是共享的语音识别引擎,需要建立一个采用共享语音识别引擎的识别环境(IspRecoContext),应用程序需要调用COM接口位于CoCreateInstance结构上的CLSID_SpSharedRecoContext。然后SAPI会设立一个音频输入流,并把这个音频输入流定义为默认的SAPI音频输入流。由于它可以与其他语音识别应用程序共享其程序资源,所以在大多数场合中被推荐使用。另一个是非共享的语音识别引擎的语音识别环境,应用程序首先需要调用COM接口位于CoCreateInstance结构上的CLSID_SpInprocRecoIns-

tance。然后,应用程序必须调用IspRecognizer的SetInput方法来设立一个音频输入流。最后,应用程序通过调用IspRecognizer的CreateRecoContext方法来建立它自己的识别环境。

C#语言的语音合成的主要接口有:Voice Commands 接口,Voice Dictation接口,Voice Text,Voice Telephone接口,Audio Objects接口。

1)Voice Commands API。对应用程序进行控制,一般用于语音识别系统中。识别某个命令后,会调用相关接口是应用程序完成对应的功能。如果程序想实现语音控制,必须使用此组对象。

2)Voice Dictation API。听写输入,即语音识别接口。

3)Voice Text API。完成从文字到语音的转换,即语音合成。

4)Voice Telephone API。语音识别和语音合成综合运用到电话系统之上,利用此接口可以建立一个电话应答系统,甚至可以通过电话控制计算机。

5)Audio Objects API。封装了计算机发音系统。

其中Voice Text API,就是微软TTS引擎的接口,通过它我们可以很容易地建立功能强大的文本语音程序。

2 系统设计与实现

2.1 系统功能概述

根据对系统需求进行分析,本系统需要完成操作、工具、用户管理、皮肤管理和帮助功能。这些功能将分成五个功能模块。操作功能:朗读、命令识别、文本识别、生成语音文件、添加操作命令、网页浏览;工具功能:训练、开机自动运行、取消开机自动运行;用户管理:添加用户、删除用户、修改用户;皮肤管理功能:皮肤的修改功能;帮助功能:帮助文档、关于作者

2.2 语音识别功能的实现

语音识别的原理就是将人发出的语音通过麦克风传到电脑的声卡,然后语音引擎对对语音信息进行采取,最后和语音库里面的信息匹配从而识别出相应的语音信息输出到电脑屏幕进行各种各样的操作。

语音识别的一个最大的难点就在于不能正确地对语音信息进行正确的识别,这里在系统开发的时候需要做两个处理工作。

第一是对语音库进行大量的语音训练,可以通过windows内置的语音识别训练系统进行训练,该功能集成与微软的XP系统的控制面板的语音选项里面。鉴于每个人的发音都是有所差异的,使用人必须先对语音引擎进行大量持久的语音训练,这样才能不断地提高语音识别的正确率,以方便计算机正确地识别出来需要操作的动作和需要对电脑输入的文字。在进行对语音库训练的前提是要安装微软提供的语音引擎Speech SDK 5.1,在安装了该引擎之后方能对语音进行训练,可以支持中英日三种语言的使用。

第二是对语音识别的结果进行模糊处理,也就是说,在不可能实现100%的识别率的情况下,要尽可能地考虑到语音识别出来的错误信息,比如本来要识别的信息是:open,但是电脑识别出来的是opened,这时候就要“将错就错”,通过数据库将识别出来的opened告诉电脑这是一个open。如此进行常用字的多次测试,并通过微软的sql server2000进行海量的数据识别模糊处理,最大化地考虑到所出现的错误来更正。

2.3文本识别功能的实现

文本识别功能的实现是要借助于微软的TTS(Test To Speech)引擎进行来实现。TTS是“文本到语音(Text To Sound)”的简称,TTS语音引擎为我们提供清晰和标准的发音,所用的关键技术就是语音合成(SpeechSynthesis)。

该文本识别引擎可以支持中英日三种语言。要使用该功能是只需要进入文本识别界面并启动文本识别按钮,然后将要识别的文字通过键盘输入到编辑框里面,再单击朗读按钮,这就可以将文本信息转化为语音信息通过音响发出。

2.4多标签的语音识别浏览器功能的实现

首先是多标签浏览器功能的实现。由于C#有自带的WebBrowser浏览器控件,使用其自带的方法。而对于多标签功能的实现则要使用C#的多线程的技术,也就是说支持多个线程同时不互相干扰的工作。

其次是具有语音识别功能浏览器的实现。这个过程可以参照之前所制作的语音识别制作的过程,只需要的浏览器里面添加一个开启语音识别和关闭语音识别功能的按钮即可。当单击开启语音识别功能时,系统将会提示已经开启语音识别功能,这个时候就可以使用语音识别功能进行网上冲浪;当单击关闭语音识别功能是,系统将会提示已经关闭语音识别功能,这个时候系统会系统语音识别功能已经关闭,此时的浏览器就和传统的多标签浏览器如360安全浏览器一样。

3 结论

本系统主要研究了用语音控制电脑的技术,成功地利用微软新一代开发平台.NET Framework开发了语音识别系统的新产品。本系统打破了传统的人机交互方式,实现的使用语音对计算机进行操作。使用微软的TTS语音引擎可以使系统具备识别中英日三种语言,并且添加了国内的捷通语音公司的语音引擎,可以识别粤语,闽南语等方言,对于文本识别的功能的实现,提高了语言学习者的学习效率,这给广大的语言学习者带来了福音。设计实现具有语音识别功能的多标签浏览器技术。主要是方便一些不会使用键盘打字的人群,使得这类人群可以通过语音控制就可以上网冲浪。

参考文献:

[1] ZHANG Jinsong, Takatoshi Jitsuhir.An Introduction to the Chinese Speech Recognition Front—End of the NICT/ATR Multi-·Lingual Speech Translation System [J].O'Reilly. 2008.

[2] Arun Krishnaraj, Joseph K. T. Lee. Voice Recognition Software: Effect on Radiology Report Turnaround Time at an Academic Medical Center [J]. 2010.

[3] wu Zhiyong. CAO Guangqi. Voice Recognition Software: Effect on Radiology Report Turnaround Time at an Academic Medical Center [J]. 2008.

[4] Jing Li. Thomas Fang Zhen91. A Dialectal Chinese Speech Recognition Framework [J]. 2006.

[5] 国玉晶,刘刚,刘健,郭军.基于环境特征的语音识别置信度研究[J].清华大学学报,2009,49(S1).

[6] 林琳,王树勋,郭纲. 短语音说话人识别新方法的研究[J].系统仿真学报,2007(10).

[7] 姚琳,梁春霞,张德干.基于实例推理的人机对话系统的设计与实现[J].计算机应用,2007(03)

[8] 林茜,欧建林,蔡骏.基于Microsoft Speech SDK的语音关键词检出系统的设计和实现[J].心智与计算,2007,12-30:433.

[9] 韩纪庆,张磊,郑铁然.网络环境下的语音识别方法[J]. 计算机科学,2005(01).

相关文章
相关期刊