1. 研究目的与意义
随着互联网的不断普及和发展,信息技术已经渗透到人们社会生活的方方面面,并且正以惊人的速度和能力改变着人们的生活和工作方式,人们真正处于一个信息爆炸的时代。我们每天阅读中会有海量数据信息,快速寻求我们感兴趣的信息不仅能够节省我们大量的时间,还能够有目的性的提高我们认知水平。因此,寻求有效的信息处理技术、方法和手段已经成为现实世界的迫切需求。在这种情况下,如何自动处理这些海量信息成为目前重要的研究课题。从目前的情况来看,虽然互联网上的信息载体呈多样化趋势,但仍以文本为主,文本仍是互联网上信息的主要来源。文本分类己成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。目前研究者们已提出了许多统计方法和机器学习方法,在试验中也有很好的表现。但是,在这个领域还是有很大的空间值得我们继续去研究和探索。
2. 课题关键问题和重难点
本课题要解决的关键问题:
(1)根据不同用户的不同文章具有不同主题的特点,根据用户的对关键词的不同需求,有针对的设计该系统应该具有的功能,是该课题的难点。
(2)根据实际特点,进行详细设计,细化功能。
3. 国内外研究现状(文献综述)
1、前言
二十多年来,随着信息时代的发展,信息的表达方式也多种多样。其中以自然语言形式表达信息的文本是一种不可替代的方式。随着网络上文本信息的爆炸式增长,如何提高信息访问的效率成了一个越来越重要的课题。为了对海量信息进行有效地组织、压缩和检索,研究人员在自动文摘、信息检索、文本分类、文本聚类和关键词自动抽取等方面进行了大量研究。但人们想获取自己需要的文本信息不可能从大量的文本中手工得到。因此如何组织、管理、检索文本变得越来越重要。随着 Google、Baidu 等搜索引擎网站的推广与应用,信息检索技术越来越深入人们的生活。用户通过输入关键词,引擎可以自动返回出现此关键词的网页。看上去搜索引擎似乎无所不能,不但可以从海量信息中获取需要的信息,而且查询时间也很短。事实果真如此吗?它真的无所不能吗?如果用户输入的关键词不够准确或者输入的关键词不在相关网页中出现,那么搜索引擎的检索效果将大打折扣!即便所有的相关网页通过关键词都被检索出来,引擎返回的网页结果排序也是一个亟待解决的问题,因为排在前面的网页是不是与你想要搜索的内容最相关也是一个未知数!
信息抽取不同于信息检索,它首先把信息进行结构化处理,变成表格一样的组织形式,形成一种映射关系。通过输入原始文本信息,得出相关信息点。本质上信息检索的核心技术是采用关键词匹配,而信息抽取则需要更深层次的自然语言理解。虽然它们是两个不同的概念,但两者又是紧密联系的。利用信息抽取技术提高文档检索的粒度与精度,从而整体上提高检索的准确率。当然,信息抽取技术同样可以利用信息检索技术计算一些统计特征,如词频、TFIDF 值等,提高信息抽取的准确率。总之两者相辅相成,缺一不可。
4. 研究方案
系统主要功能:
(1)用户可以对某一篇文章就行一个或多关键词词频统计,统计结果用Excel表导出。
(2)用户可以对多篇文章进行一个获多篇关键词进行词频统计,并将结果用Excel表导出,并支持根据用户对关键词进行赋权值,进行加权平均,对多篇文章进行排序。
5. 工作计划
第1周,收集资料,熟悉语言工具,学习有关书籍文献,完成开题报告;完成专
业英文资料翻译。提交开题报告,提交英文翻译。
第2、3周,完成软件需求分析。提交软件需求分析报告。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。