基于注意力机制的双向长短期记忆网络文本分类算法研究开题报告

 2022-08-16 17:44:22

1. 研究目的与意义

从大数据本身来说明。目前以及未来很长一段时间我们都处于大数据阶段,而大数据想要提现出数据的价值,就离不开机器学习、人工智能技术,同样人工智能想要体现出优势必须基于大数据。目前各大公司都有自己海量的数据,并且运用人工智能技术展现出价值,但从数据量本省来说,或许目前最大的数据量应该是互联网上茫茫多的网页,现阶段对这些茫茫多的网页的利用度还是比较浅的。这些网页对包括google、百度等互联网巨头来说还有很大的价值需要去挖掘,而几乎每个网页都有一定量的文本内容,绝大部分网页完全靠文本来展现其核心内容,而这些文本内容都是自然语言。那么自然语言处理的研究价值就相当明显了,想要深度去挖掘网页的价值,就必须有好的自然语言处理手段。

从人工智能技术本身来说明。人工智能技术目前来说发展较好,也最火的应该属于图像,语音方向,而在文本处理方向相对发现欠缺,前面两者无论从技术亦或者人才都将进入一个相对平缓的阶段,接下来对文本的处理将要登上舞台中心。

从人工智能这个词本身来看。人工两字就不说了,对智能两字来说,机器要想实现智能,如果连人类的语言都不能理解,怎么和人类好好的交流,怎么体现智能之处。总不能让两个机器之间噼里啪啦交流一大堆信息,然后说这就是智能吧。总得来说机器理解自然语言的含义对人工智能来说是必须的而且重要的,自然语言处理终将登上舞台中心。仅代表个人观点。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

目前NLP(Natural Language Processing,自然语言处理)已成为机器学习的研究热点之一。文本分类是NLP处理技术的重要分支。文本分类(Text Classification或Text Categorization,TC),或者称为自动文本分类(Automatic Text Categorization),是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。

早期有一些基于传统机器学习的文本分类,例如基于某种词语特征的的贝叶斯模型,SVM分类器等。随着深度学习的发展,LSTM softmax/CNN softmax模型变成了一种非常流行的文本分类架构,基于此Fasttext、textCNN等便捷高效的开源文本分类工具也开始流行。此外,结合Attention等技巧与概念能够一定程度的提高模型的效果。文本分类还有另外一种模式,即通过将文本向量化,再通过聚类获得类别,NLTK等开源NLP工具都有便捷的Doc2vec API。如果觉得效果不好,可以试试BERT的【CLS】向量。此外,还可以增加TF-IDF模块,构建更有表达能力的DocVec。

3. 国内外研究现状

近年来,自然语言处理处于快速发展阶段。各种词表、语义语法词典、语料库等数据资源的日益丰富,词语切分、词性标注、句法分析等技术的快速进步,各种新理论、新方法、新模型的出现推动了自然语言处理研究的繁荣。互联网与移动互联网和世界经济社会一体化的潮流对自然语言处理技术的迫切需求,为自然语言处理研究发展提供了强大的市场动力。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

论文主要研究中文文档主题分类的相关技术,讨论多种深度神经网络在文本分类上的应用,并在此基础上设计并实现一个适合于文档主题分类的文本分类模型。

本文主要的研究工作内容包含以下几点:针对不同领域语料之间的文本语义存在的差异性问题,选取与实验数据集相同领域内的语料数据作为训练词向量的语料库内容,在最大程度上保证语义一致性;同时采用时下流行的神经语言模型Word2Vec去获取连续而稠密的词向量,以此作为后续任务的基础。

针对如何实现循环神经网络较好地在短语上建模问题,使用卷积算法提取相应的短语(n-gram)特征;其次使用可以克服单向循环神经网络语义偏置问题的双向循环神经网络提取包含完整上下文语义信息的特征,以及使用能够捕捉数据内部相关性特点的注意力机制对特征做最后的整合。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

  1. 张钹. 自然语言处理的计算模型. 中文信息学报, 2007, 21(3):3-7.
  2. 冯志伟. 《统计自然语言处理》序言. 1版. 北京: 清华大学出版社, 2008.
  3. 孙茂松. 语言计算:信息科学技术中长期发展的战略制高点. 语言文字应用, 2005, 3:38-40.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。