数据抽取及应用技术研究开题报告-毕设开题网

1. 研究目的与意义

当下，互联网已成为信息传播与共享的重要资源。由于Web数据的半结构化、异构、海量等特点，使得传统的数据挖掘技术不能直接运用到Web页面数据源上。因此先要对半结构化的Web页面数据进行抽取有用的信息，于是Web抽取技术应运而生。由于XML的结构化、可扩展性等众多优点，因此将Web数据抽取的结果以XML形式输出更适合数据抽取的需要。

目前Web页面上大部分数据使用HTML（超文本标记语言）进行描述。HTML标记语言只为Web浏览器提供可定义的显示格式，但通常没有语义和结构信息，不适合作为一种数据交换的方式由计算机处理。因此通常称Web页面为半结构化的数据文档。Web数据抽取技术就是为了解决从无语义的Web页面中抽取目标信息的问题而逐渐形成的一项新的研究课题。信息抽取的本质是从Web页面所包含的无结构或半结构的信息中识别用户感兴趣的信息,并将其转化为更为结构化、语义更为清晰的格式，供客户选择和使用。本课题通过对信息数据的抽取技术的研究，选择好的抽取方法，实现有效的数据抽取和有效数据的抽取应用。

2. 研究内容和预期目标

本课题主要研究Web信息数据抽取的方法和技术。目前有三种主要方法：

1、手工方法：程序开发人员通过浏览页面和页面源代码找出一些数据的模式，然后写一段程序提取目标数据。但是该方法应用的范围非常有限。

2、Wrapper归纳：一种有监督的学习方法，因此也是一种半自动化方法。用户首先在一个列表上人工标注一个训练页面集或者数据集，接下来学习系统从训练样本中生成规则，并且应用这些规则在新的页面提取目标数据。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究的方法与步骤

本课题拟采用基于样本学习的半结构化Web信息抽取方法实现将基于HTML无结构化文档和XML文档的半结构化Web信息抽取出来转化为结构化数据并保存到关系数据库中。Web信息抽取具体步骤如下：

a.获取数据，即下载指定的URL页面数据；

b.定义抽取规则，使得用户能够根据样本Web页面完成抽取规则的定义任务，即完成目的表模式设计和数据源到目的表结构的模式映射设计；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

1 方翔. XML 文档到关系数据库的直接转换 [J]. 计算机工程,2011,27(11):65-66,122.

2 曹亮,王茜,卢菁. XML 数据在关系数据库中存储和检索的研究和实现[J].东南大学学报(自然科学版),2012,32(1):124-127.

3李剑波,李晓华. 一种基于XML的Web信息抽取方法[J].情报杂志，2006，8：49：51.

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

5. 计划与进度安排

(1) 2022.1.12----2022.3.8查阅资料，撰写并提交开题报告

(2) 2022.3.9----2022.3.20需求分析,概要设计

(3) 2022.3.21----2022.5.16详细设计、代码编写

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文开题报告，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

数据抽取及应用技术研究开题报告

1. 研究目的与意义

2. 研究内容和预期目标

3. 研究的方法与步骤

4. 参考文献

5. 计划与进度安排

您可能感兴趣的文章

登录

1. 研究目的与意义

2. 研究内容和预期目标

3. 研究的方法与步骤

4. 参考文献

5. 计划与进度安排

您可能感兴趣的文章