1. 研究目的与意义
新一轮的科技革命蓄势待发,网络渐渐融入我们日常生活,随着互联网的广泛使用,数据增长也是如今一大趋势。如今网站都包含着巨大的信息,人们也开始对这些数据进行提取,使之有效地为人们所利用。全球信息在以一个惊人的速度在增长,人们对数据提取的呼声也越来越高。所以本软件也是应对广大需求而设计的,可以很好的适应市场的需求,可供一些非技术人员简单操作。
网页表格提取在许多方面都很有意义。当前多家公司应市场需求提取网页中的表格数据,进而分析数据,从中获取有效信息,提高企业核心竞争力,获得更高的利润。同时,设计这款软件成本低,效率高,获利高。当今许多地方都需要这种工具,提取表格信息是关键的一步,只有这一步成功了才能进行之后的一系列操作。2. 课题关键问题和重难点
1. 解析网页中的源文件。首先要了解网页里表格的脚本语言的特点,掌握脚本语言编程的基本方法。在此基础上用Java解析Html中的脚本编程语言,这就要涉及到Java中相关知识。这方面知识在大学以往课程中很少涉及到,大学四年中大多是各科分类式学习,没有制作过将网页脚本语言同java编码技术紧密结合起来的项目,再加之个人的编程经验不够丰富,所以本课题中如何解析网页中的源文件是要处理的一大难点。
2. 判别一些网页中简单的表格,其中复杂不规则的网页表格显示无法获取信息,排除掉不规范的表格之后,开始提取表格中的行数列数,判断表格中含有几行几列,然后在数据库中生成相对应的行和列,接着提取网页表格中每行每列中包含的数据,写入到数据库中已建成的关系表中的对应的位置,最后形成一张和网页中简单表格对应的关系表。这些就是完成本课题需要实现的关键几步。
3. 国内外研究现状(文献综述)
随着网络慢慢渗透人类生活的各个角落,我们在体会科学技术带来的好处的同时,也要学会利用技术提取网络中现有的信息,加工分析筛选出有利的信息。目前网上已经有很多网页爬虫工具,他们的功能相对来说更为强大,这类工具可以指定提取一些重要信息,同时它们可以抓取网页的动态信息,范围更广提取大量可用数据。在此基础上,本人只是制作一个简易的爬虫,只是针对网络中表格进行提取,核心技术部分基本一致。
Java语言功能强大,为万千程序员所青睐,成为了最流行的程序设计语言。Java发展成为互联网时代最强大的计算机语言,它具有跨平台、纯粹的面对对象,适合于单机和网络编程等诸多优点。Java中也提供与数据库相连接的功能,程序员可以利用代码来在数据库中建立关系表,插入数据。操作简单,易于上手。
随着信息技术的快速发展和广泛使用,数据库在其中也扮演着不可缺少的重要角色,无论是简单的表格还是强大的数据系统,数据库都可以很好完成这类工作。微软公司推出的SQL Sever数据库管理系统是目前使用最广泛的大型数据库管理系统之一,它建立在成熟而强大的关系模型基础上,具有诸多优点,广受好评。正式由于SQL Sever具有操作简单、功能强大、安全性高等优点,因此成为我存储网页表格数据的首选对象。
HTML超级文本标记语言是当前网页制作中一种基本语言,它的功能强大,可以完成制作表格、文本、按钮、插入图片等功能,操作简单,使用也十分广泛,深受大众喜欢。HTML具有跨平台性,需在Web浏览器上运行。HTML中标签都是承兑出现的,其中要制作表格,需要从
翻阅相关的一系列文献,反复长时间仔细研究之后,在当今互联网社会网页提取技术需求量还是比较大,用途也十分广泛。对这个信息化的时代来讲,这项技术意义十分深远远大,相信在未来的日子,这项技术也会越来成熟。结合java编程、数据库SQL Sever以及脚本语言等多方面知识,涉及多方面技术,同时也是面向的对象是网络,实用性十分强,贴合现在网络生活,有很大的研究意义。
[1]Julie C.Meloni.HTML、CSS和JavaScript入门经典[M].陈宗斌,北京:人民邮电出版社,2012
[2]杨作梅,罗刚:网络爬虫[M].北京:清华大学出版社,2016:176
[3]Elliotte Rusty Harold.Java Network Programming[M].影印版.南京:东南大学出版社,2005,06
[4]张思民:Java语言程序设计[M].3版.北京:清华大学出版社,2007,2
[5]戚晓明,数据库技术与应用[M].北京:清华大学出版社,2012,9
[6]王珊,萨师煊:数据库系统概论[M].5版.北京:高等教育出版社,2014
[7] Eric T Freeman, Elisabeth Robson埃里克弗里曼,伊丽莎白罗布森:Head First HTML5 Programming[M].北京:中国电力出版社,2009,2
[8] 孙卫琴. Tomcat与Java Web开发技术详解[M].第2版.电子工业出版4. 研究方案
软件运行环境建立在Windows 7上,主要运用两种软件是编程Java和数据库SQL Sever。选择某个内含简单表格的网页,设置表格中可能出现的属性名,通过URL获取输入流,获得网页源代码之后,根据之前了解过的网页表格脚本语言,进行判断获取,表格数据信息放在
5. 工作计划
2022年1月7日2022年1月13日 :完成开题报告、外文翻译,全面了解论文项目
2022年1月15日2022年2月19日 :研读相关文献,复习相关知识点,为项目开始打好基础
2022年2月20日2022年2月28日 :对项目进行需求分析,功能分析,性能分析,运行环境分析,设计整个系统的框架。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。