1. 研究目的与意义
随着Internet发展要应用的普及,网络上的信息量以几何数级地增长,因此如何从中快速高效地提取我们需要的数据成为一个巨大的技术难题。用户在浏览网页时,会发现主要两方面内容,一部分是主题信息,另一部分是一些“噪声”,比如广告等。
对于这些非结构化的网页,我们要如何精确获取我们需要的信息呢?这就需要我们研究网络爬虫。它可以抽取主题信息,简化网页,节省后续处理过程的时间和空间开销。
一些学者,老师或学生,在学习中需要参考有关论文,而网页中“噪声”很多,对于他们,这很不方面。本课题就是在研究网络爬虫的基础上,以perl和Java语言分别写个爬虫工具,分别实现对论文全文和摘要,与公司的一些信息的爬取。本课题的实现会帮助需要的人群,迅速获取有关主题信息,节省了人力物力时间,有很大价值。
2. 研究内容和预期目标
1)研究内容:
在网页数据中有很大一部分是非结构化信息,比如:知网中的论文全文数据。这些数据的特点是没有统一的数据格式,但数据中又蕴含丰富的有用数据,如何从这些数据中提取关键信息成为棘手问题。本课题就是在此背景问题下,研究具有较强适应性的非结构化数据提取工具,将非结构数据结构化。
2)预期目标
3. 研究的方法与步骤
研究方法:
首先要确定本课题的实现语言。在比较多个语言的优劣下,确定本课题的实现语言。最终我选择Perl,因为它强大的文本处理能力。
分析目标网站结构,确定爬取顺序。
4. 参考文献
[1]陈岩,垂直搜索中网页抓取技术的研究,科技信息,2009
[2]翁岩青,网页抓取策略研究,哈尔滨工程大学,2010
[3]张晓峰,并行网页抓取系统设计,北京交通大,2006
5. 计划与进度安排
(1)2022.2.1----2022.3.1 查阅资料,撰写开题报告
(2)2022.3.2----2022.3.15 需求分析,熟悉开发工具
(3)2022.3.16----2022.3.25概要设计
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。