1. 研究目的与意义
在当前电子信息高速发展的时代,何时何地都在不停的产生大量的文字、图片、视频数据,而其中
最重要的当属文本数据。因此,如何运用日趋成熟的文本分析技术,去发掘海量文本背后所包含的有效信息,意义将非常重大。现如今,文本分类技术在个性化推荐、信息检索、信息安全、搜索引擎系统等领域都有真十分重要的作用。虽然,已经是进入人工智能时代的21世纪,但文本分类依然是一个非常有挑战性的问题,极具研究意义和广泛的应用前景。
文本分类技术的不断发展与深入,已逐渐在邮件过滤、信息检索、文本情感分析、文本索引等领域表现出广泛的应用前景,在文本分类过程中,分类主题的细化,复杂的分析问题,以及对句子、文章的泛化处理的能力,如何将浅层的字面上的文本信息结合上下文信息、词与词之间的联系等作为分类问题的难点,急需对算法进行创新改革,突破瓶颈。伴随着深度学习的发展,凸显出对于复杂语义问题的优秀能力,因此引入深度学习来提高分类精确度,利用其优势去处理文本问题,不仅具有理论指导意义,也有使用价值,同时,高性能的CPU和GPU平台提供了强大的计算能力,也为深度学习提供了创新平台。
2. 研究内容和预期目标
研究内容:
(1) 如何对大量数据进行分类管理
(2) 如何快速客观准确的进行分类
3. 国内外研究现状
文本分类技术起源于国外,最早由上个世纪50年代末,美国IBM公司的Luhn提出,他开创性的把
词频统计思想用到了自动分类中。到上世纪90年代,互联网上出现了大量丰富的在线文本,机器学习也逐渐发展起来。这时,统计学习方法成为了文本分类的主要技术,重要的是它的学习不需要专家敢于,分类精确度却比得上专家手工分类的结果,性能方面更是有了明显的提高,使它成为当时分类的主流方法。
近年来,深度学习迅猛发展。早期由McClelland等人提出的BP前馈神经网络,被PedersenJ等成功应用到文本分类领域。这一技术一定程度上弥补了线性和线层非线性方法,在表达复杂语义上面的不足。国外已有许多学者在探索。Johnson等人提出了一个半监督的,卷积神经网络学习框架,可以有效利用没有标识的数据。Zhou等人提出C-LSTM模型,该模型先利用卷积神经网络提取文本特征,再送入长短期记忆网络,该模型在文本分类上有较好效果。借助大量数据,深度学习模型可以提高特征对文本语义信息的表达能力,有着很好的学习和理解能力。随着深度学习理论和方法的不断完善,基于深度学习的文本分类、自然语言处理技术会更加成熟。
4. 计划与进度安排
撰写方案:
(1)查找相关方面的论文,学习有关文本分类,卷积神经网络方面的知识。
(2)设计基于卷积神经网络的文本分类算法
5. 参考文献
[1]陆超红.基于多通道循环卷积神经网络的文本分类方法[J].计算机应用与软件,2020,37(08):282-288.
[2]高云龙,吴川,朱明.基于改进卷积神经网络的短文本分类模型[J].吉林大学学报(理学版),2020,58(04):923-930.
[3]陈天龙. 基于深度神经网络的文本分类模型研究[D].南昌大学,2020.
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。