1. 研究目的与意义
在科技文化飞速发展的今天,人们越来越习惯在网络上交流互动,网络中也随之出现了许多有价值的短文本,这些文本信息数量庞大,内容繁多且隐含着作者的感情倾向,具有一定的主观性。于此同时它们中有又隐含着十分有价值的信息。我们通过对这些短文本进行情感分析,能从中挖掘出现在社会的舆论导向和情感倾向,了解到人们的行为思想趋势。国家可以通过这些信息来掌握公众舆论,市场营销也可以通过这些信息来确定未来的市场走向,尽可能规避市场风险。因此这些信息具有着较大的研究价值。
2. 研究内容和预期目标
研究内容:
1)先对文件进行预处理,去掉停用词并完成文本分词
2)文本数据预处理后,通过模型将词转化为词向量
3. 国内外研究现状
基于深度学习的短文本情感分析 深度学习是机器学习领域中一个新的研究方向。是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。 深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。 文本情感分析:又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。 对于中文短文本的情感分析主要有两种方法:基于情感词典的方法和基于机器学习的方法国内有研究采用深度神经网络的方法围绕网络中短文本的情感分析展开研究,结合深度神经网络中的两种典型网络结构——循环神经网络(RNN)和卷积神经网络(CNN)以及新近流行的生成对抗网络(GAN)对短文本的词向量表示、属性级情感分析、双语环境下短文本的机器翻译和情感分析进行了探索。首先,对情感分析实验数据集的预处理,包括去停用词、词向量的训练等。通过训练词向量将文本信息用向量矩阵表示,用作神经网络模型的输入。其次,使用双向回环LSTM神经网络,该方法以属性目标词为中心,从属性词的左右两侧开始构建双向回环LSTM网络,这种结构的网络充分考虑了目标词的上下文信息,对属性级短文本情感倾向性的判断达到了较好的性能。最后,将生成对抗网络模型用于机器翻译,提出了一种新颖的对抗网络翻译模型。该对抗网络翻译模型主要由生成模型和判别模型组成,其中,生成模型是机器翻译模型,判别模型使用卷积神经网络作为分类器。生成模型和判别模型训练过程中相互学习,相互对抗,同时不断提升自己的能力。
2010年,Tomas Mikolov及其合作者提出了基于RNN的语言模型 。2013-2015年, Y. Benjo、D. Bahdanau等提出了编码器-解码器、自注意力层等一系列RNN算法,并将其应用于机器翻译问题 。为语言模型设计的RNN算法在随后的研究中启发了包括Transformers、XLNet、ELMo、BERT等复杂构筑。
也有提出通过在预训练词向量上加入情感信息得到情感词向量。具体实现方式是基于构建的大规模中文文本情感分析语料库训练词向量,并通过语料库和SO-PMI方法生成情感词典,再通过将词向量与词语的情感分数进行拼接得到情感词向量。提出了一种新型网络架构:BLSTM-MultiAtt-CNN,该模型包括BLSTM层、多通道自注意力编码层和注意力CNN层。首先通过BLSTM层对语句序列进行编码,捕获上下文信息,然后通过多通道自注意力编码层对全局信息进行捕获,注意力CNN层对局部信息进行捕获,最后再将全局信息和局部信息进行拼接,作为文本所包含情感特征的向量表征。
4. 计划与进度安排
1. 研究计划
1)文献资料
通过查询登录中国知网等数据平台,查阅与本文写作相关的数据,以便进行后续研究。
5. 参考文献
基于深度学习的中文文本情感分析研究 曹宇
基于深度学习的文本情感分析算法研究 周凯
文本情感分析的深度学习方法 邢长征李珊
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。