1. 研究目的与意义
当下,互联网已成为信息传播与共享的重要资源。由于Web数据的半结构化、异构、海量等特点,使得传统的数据挖掘技术不能直接运用到Web页面数据源上。因此先要对半结构化的Web页面数据进行抽取有用的信息,于是Web抽取技术应运而生。由于XML的结构化、可扩展性等众多优点,因此将Web数据抽取的结果以XML形式输出更适合数据抽取的需要。
目前Web页面上大部分数据使用HTML(超文本标记语言)进行描述。HTML标记语言只为Web浏览器提供可定义的显示格式,但通常没有语义和结构信息,不适合作为一种数据交换的方式由计算机处理。因此通常称Web页面为半结构化的数据文档。Web数据抽取技术就是为了解决从无语义的Web页面中抽取目标信息的问题而逐渐形成的一项新的研究课题。信息抽取的本质是从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的信息,并将其转化为更为结构化、语义更为清晰的格式,供客户选择和使用。本课题通过对信息数据的抽取技术的研究,选择好的抽取方法,实现有效的数据抽取和有效数据的抽取应用。
2. 研究内容和预期目标
本课题主要研究Web信息数据抽取的方法和技术。目前有三种主要方法:
1、手工方法:程序开发人员通过浏览页面和页面源代码找出一些数据的模式,然后写一段程序提取目标数据。但是该方法应用的范围非常有限。
2、Wrapper归纳:一种有监督的学习方法,因此也是一种半自动化方法。用户首先在一个列表上人工标注一个训练页面集或者数据集,接下来学习系统从训练样本中生成规则,并且应用这些规则在新的页面提取目标数据。
3. 研究的方法与步骤
本课题拟采用基于样本学习的半结构化Web信息抽取方法实现将基于HTML无结构化文档和XML文档的半结构化Web信息抽取出来转化为结构化数据并保存到关系数据库中。Web信息抽取具体步骤如下:
a.获取数据,即下载指定的URL页面数据;
b.定义抽取规则,使得用户能够根据样本Web页面完成抽取规则的定义任务,即完成目的表模式设计和数据源到目的表结构的模式映射设计;
4. 参考文献
1 方翔. XML 文档到关系数据库的直接转换 [J]. 计算机工程,2011,27(11):65-66,122.
2 曹亮,王茜,卢菁. XML 数据在关系数据库中存储和检索的研究和实现[J].东南大学学报(自然科学版),2012,32(1):124-127.
3李剑波,李晓华. 一种基于XML的Web信息抽取方法[J].情报杂志,2006,8:49:51.
5. 计划与进度安排
(1) 2022.1.12----2022.3.8查阅资料,撰写并提交开题报告
(2) 2022.3.9----2022.3.20需求分析,概要设计
(3) 2022.3.21----2022.5.16详细设计、代码编写
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。