全文总字数:4157字
1. 研究目的与意义(文献综述)
在数字化和网络化的今天,随着数字技术的进步,互联网上涌现了大量的声音信息,如何得到有用的信息变得尤为重要。音乐、视频声音、微信语音等都是语音信息,音频分类能为视频的检索和摘要、音频信息的理解提供有用的信息,如果可以将音频信号分为音乐、纯语音、静音和带背景音的语音更有助于理解音频内容。各行各业对于声音媒体越来越广泛的应用也加快了语音分类的发展。对于音频信号来说,基于内容的音频检索是指通过音频特征分析,对不同的音频数据赋以不同的语义,使具有相同语义的音频在听觉上保持相似,从而便于查询。而本文研究基于内容的音频分类是基于内容的音频检索技术的重要研究内容。
音频分类能为视频的检索和摘要、音频信息的理解提供有用的信息。将音频信号分为纯语音、音乐、静音和带背景音的语音等有助于更好地理解音频内容,也有助于进一步的具体操作,比如音频检索和音频编译码。但是由于原始语音数据除了含有采样率、量化精度和编码方法等有限的信息外,本身只是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,因而音频分类受到极大的限制。所以将音频中的结构化信息和内容语义提取出来,使无序的音频数据有序化,是音频分类技术实用化的关键。基于内容的音频信号的自动分类,尤其是语音信号和音乐信号的分类做为提取音频内容语义和结构的重要手段,是当前音频分析和检索领域的一个研究热点。另外,音频分类在多媒体信号的有效编码、自动语音识别、基于内容的索引和视听数据的修复、音乐流派分类和乐器识别等应用领域具有重大的应用价值和广阔的前景。
现状:在实现音频信号分类的系统框架下,涉及到统计学、音频信号处理和模式识别等学科的知识。
2. 研究的基本内容与方案
本文通过对给定的语音信号先进行处理提取特征,使用MATLAB编写BP神经网络算法对提取的特征进行处理,以达到语音分类的目的。
人通过声道产生声音,声道的形状决定发出怎样的声音。声道的形状包括舌头,牙齿等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素进行准确的描述。声道的形状在语音短时功率谱的包络中显示出来。将语音分成帧,每帧语音的频谱再经过映射到灰度级变成一个声谱图。之所以要在声谱图中表示语音的原因:首先,音素的属性可以更好的在这里面观察出来。另外,通过观察共振峰和它们的转变可以更好的识别声音。隐马尔科夫模型(Hidden Markov Models)就是隐含地对声谱图进行建模以达到好的识别性能。还有一个作用就是它可以直观的评估TTS系统(text tospeech)的好坏,直接对比合成的语音和自然的语音声谱图的匹配度即可。本设计中通过对语音信号的频谱进行同态信号处理,将非线性问题转化成线性问题,将其转化成倒谱频域。因为人耳听觉系统只聚焦特定的区域而不是整个频谱包络,我们使用符合听觉系统的Mel频率分析方法,考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上。将普通频率转换到Mel频率的公式是:
。
3. 研究计划与安排
第1-3周:查阅相关文献资料,明确研究内容,了解研究所需理论基础。确定方案,完成开题报告。
第4-5周:熟悉掌握基本理论,完成英文资料的翻译,熟悉开发环境。
第6-9周:编程实现各算法,并进行仿真调试。
4. 参考文献(12篇以上)
[1]张雄. 基于卷积神经网络特征优化的语音情感识别研究[D].华中师范大学,2018.
[2]杨万钊. 语音/音频混合编码器中的信号分类算法研究[D].武汉大学,2018.
[3]金碧程. 基于深度学习的语音情感识别研究[D].北京邮电大学,2018.
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。