全文总字数:4875字
1. 研究目的与意义(文献综述)
在信息化高速发展的今天,伴随移动设备的普及,语音技术早已渗透到人们生活中的各行各业。自计算机发明以来,让机器赋予人的听觉特性,听懂人说什么,并做出相应的动作,一直是人们追求的目标。自动语音识别技术便是其中关键的一部分,它旨在通过对信号处理和模式识别技术的研究,使计算机正确理解人类的语言并将语音信息转化为可读的文字信息,以实现人机交互。语音识别其本质上是一种模式识别的过程,通过将未知语音的模式与已知语音的参考模式逐一进行比较,得出的最佳匹配模式则被作为最终的识别结果。
语音识别的研究工作可以追溯到20世纪50年代,其雏形是由贝尔实验室研究出来的Audry系统,它是第一个能够识别十个英文数字的语音识别系统。随着计算机技术的发展,到20世纪60年代末,动态时间规整(DTW)技术和线性预测编码(LPC)技术的提出,使语音识别技术得到了实质性的突破,它使得语音信号可以等长进行处理,并解决了语音信号的特征提取问题。与此同时,矢量量化(VQ)和隐马尔科夫模型(HMM)理论也被相继提出,为日后语音技术的进一步发展奠定了基础。在20世纪80年代末期,人们在实验室语音识别研究中,终于逾越了语音识别技术中大词汇量、连续语音和非特定人这三座大山,其代表为卡耐基梅隆大学的李开复实现的以高斯混合模型和隐马尔可夫模型(GMM-HMM)为核心框架的非特定人、大词汇量连续语音识别系统Sphinx。在这一时期,语音识别的研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。
步入21世纪,基于深度神经网络(DNN)的语音识别技术走向舞台的中央,2006年“神经网络之父”Hinton提出了使用受限的波尔兹曼机来实现对神经网络中每个节点的初始化过程。不同于之前GMM-HMM语音识别框架表达能力有限,无法处理较大规模数据的情况,深度学习框架具备有更强的表达与建模能力的多层非线性变换的深层结构,由于人类产生和处理语音信号就是一个极其复杂的过程,甚至该过程本身也具备多层次和深层次的处理结构,这样就使得基于深度学习的语音识别模型对复杂数据的挖掘和学习能力得到了空前的提升,使得语音识别技术不再局限于处理小规模或是单一性的数据。
2. 研究的基本内容与方案
2.1 基本内容
学习语音识别理论和MATLAB相关知识,了解语音识别的基本方法,掌握语音识别系统的基本原理和流程,介绍实现语音识别的基本步骤,建立识别基本单元的声学模型以及进行文法分析的语言模型,根据识别系统的类型,选择能够满足要求的一种或多种识别方法,采用语音分析方法分析出识别方法所要求的语音特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果。
3. 研究计划与安排
第1-3周 查阅文献;分析题目研究现状,学习基本理论;
第4周阅读文献、撰写开题报告,英文文献翻译;
第5周学习了解语音识别系统的分类和基本组成,确定实现方案;
4. 参考文献(12篇以上)
[1] 胡光锐.语音处理与识别[M]. 上海:上海科学技术文献出版社,1994.
[2] L.拉宾纳,阮平望.语音识别基本原理[M]. 北京:清华大学出版社, 1999.
[3] 赵立.语音信号处理[M].北京:机械工业出版社,2003.
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。