1. 研究目的与意义
随着互联网技术的快速发展,网络信息也在不断的增加,互联网已融入生们的学习、工作和生活当中,人们习惯于在网上查找自己感兴趣的或者有用的资料。搜索引擎技术为人们找到目标网页提供了便捷的方式,但在找到目标网页后,往往面临着很多时候目标网页包含表格数据,无法直接将表格信息提取并保存的问题,不便于对网页内容资源的有效利用。随着互联网应用的不断开发,基于网页正文提取的技术层出不穷。几种比较经典的提取模型包括:基于DOM树网页提取模型,基于统计的网页提取模型,基于分块的网页提取模型。本课题考虑设计软件工具,实现对给定网页内数据表格的识别和提取,并将提取出的表格数据转换为关系数据库关系表存储。
2. 课题关键问题和重难点
1、结构信息的抽取:结构信息抽取过程就是将一组超链接的HTML页面转换为嵌套的数据对象,将所需数据的网页地址和该数据的抽取格式的描述作为输入。
2、抓取网页数据通过指定的URL,获得页面信息,进而对页面用DOM进行NODE分析,处理得到原始HTML数据,这样做的优势在于,处理某段数据的灵活性高,难点在节算法需要优化,在页面HTML信息大时,算法不好,会影响处理效率。
3、如何辨别提取出来的表格信息是标准关系表还是复式统计表:根据提取出来的表格的行数和列数,看他们是否对等,若不对等则为统计表格。
3. 国内外研究现状(文献综述)
随着互联网应用的不断开发,基于网页正文提取的技术层出不穷。几种比较经典的提取模型包括:基于DOM树网页提取模型,基于统计的网页提取模型,基于分块的网页提取模型。
1.基于DOM树的网页正文提取技术
目前在网页信息抽取技术中研究得最多的基于DOM的网页提取技术,它属于自动训练的研究方法,也是近些年来发展的最好的技术方法。DOM就是文档对象模型,全称为DocumentObjectModel,它将HTML文档里的标签信息,如Table,List等利用起来,把文档解析成一个逻辑树形结构,节点就是对象。构建完DOM树后,通过将各个节点遍历,对各种非正文信息包括广告。链接群等识别并移除,移除完非正文信息后,正文内容就是DOM树中剩下的节点内容。
由于依赖于HTML文档里的标签结构的基于DOM的算法,对于HTML规范语法的要求很宽松,所以不同的设计人员执行的规范程度不一样,比如标签的不匹配等。虽然这种不规范性对于HTML本身的执行不会造成问题,但却可能使勾践DOM树的过程濒临崩溃。另外,更加重要的一点在于,解析DOM树的过程效率比较低,因为它会对文档中的每一个Element、Attribute、Comment等都创建一个对象,这样,大量的对象在运行过程中将会被创建和销毁,大大增加了搜索引擎中海量数据的处理负担。
2.基于统计的网页正文提取技术
传统的网页内容提取方法需要针对不同的数据源创建不同的包装器,基于统计的网页正文抽取技术克服了这样的缺点,它具有了一定的普遍性。不需要样本学习,也大大提高了正文抽取的速度。
3.基于分块的网页正文提取技术
当Web页面呈现在用户面前时,用户可能下意识地将网页页面划分为几个语义块。基于分块的网页正文提取技术类似基于DOM的正文提取技术,区别在于前者在对页面分块是,仅仅考虑布局标签或其他页面布局信息。
一种基于HTML
其他文献:
[1].王能斌.数据库系统教程.电子工业出版社,2002.
[2].丁宝康.数据库实用教程.清华大学出版社,2001.
[3].黄预清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器.软件学报,2000,11(1):73-78.
[4].杨丽萍.网页正文提取技术的分析与研究,《计算机光盘软件与应用》2012年第22期
[5].袁鸿雁,基于本体的HTML表格识别技术的研究,长春工程学院报,2010,11(1)
4. 研究方案
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。随着互联网应用的不断开发,基于网页正文提取的技术层出不穷,本课题考虑设计软件工具,实现对给定网页内数据表格的识别和提取,并将提取出的表格数据转换为关系数据库关系表存储。主要运用基于DOM树的网页提取技术,将数据从HTML网页中提取出来,然后再对数据进行判别筛选,最后将符合要求的数据表格存储到数据库中并展示出来。
5. 工作计划
(1).1~3周,网上查阅相关文献,学习设计时所需要的技术与相关知识;
(2).4~6周,开始软件的研发工作,搭建基本架构,开始编码实现部分功能;
(3).6~7周,完成中期检查表,并上传;
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。