1. 研究目的与意义
搜索引擎是人们通过网络检索信息的入口,但是这些搜索引擎存在着一定的局限性,它们大多是基于关键词进行检索,它们的目标是尽可能大地覆盖到网络,检索出来的数据形式也多样化,如:图片、文字、音 频、视频、数据库等。
但是,通常情况下不同背景的用户检索目的和需求有所差异,对搜索引擎返回的大量结果可能并不关心,对于一些信息含量密集并且具有一定结构的数据不能很好地发现和利用。
而搜索引擎也会基于服务器资源有限,而网络资源无限产生资源之间的矛盾。
2. 课题关键问题和重难点
本次课题的关键技术难点在于运用网络爬虫进行,由于网络爬虫属于尚少接触的技术,首先需要理解网络爬虫的基础性概念,同时由于python语言的特性与优点,大部分网咯爬虫选用python语言进行编写,而python语言学校并未单独开设课程进行教学,所以在进行课题前需要对python语言有详尽的了解。
由于网络爬虫的分类不同,需要了解不同的爬虫爬行方式并且针对本次课题选择合适的爬虫爬行策略,同时对于此策略要完全理解并且熟悉其他的不同策略。
接下来的问题是选择合适的高校网站作为目标网站,所选网站信息需要内容合适且符合本次课题要求。
3. 国内外研究现状(文献综述)
在当前的大数据时代背景之下,各个领域的发展都离不开数据的搜寻检索,如网络安全分析、产品设计调研等,统统需要大量的用户数据作为支撑,然而这些信息曾经都是依靠人为搜寻获取整理的。
python语言的出现,使得网络爬虫技术得到了一定的飞跃,不仅提升了数据获取与汇总工作的效率,还降低了人力物力的消耗。
网络爬虫,是一种可以依照提前设定好的程序规则自主进行网络信息抓取的程序脚本。
4. 研究方案
通过目前对于python语言以及爬虫技术的学习,了解到爬虫的基本流程分为四步,第一步是向要爬取的网站发出请求;第二步是获得请求响应的内容;第三步为解析网页内容;第四步为处理网页内容。
根据本次课题内容,初步选定本次毕业设计采用scrapy爬虫框架进行。
开发软件采用为pycharm,并在terminal中建立scrapy框架,建立工作项目。
5. 工作计划
1-2周: 完成开题报告和需求分析工作,编写开题报告,阅读相应的文献资料,了解python语言以及网络爬虫的基础知识,并为课题选定合适的爬行方法和策略;3-4周:完成系统设计和数据库建立工作,根据实际情况选定合适的目标高校网站并完成系统的大致设计以及基础代买的实现,根据目标网站的信息建立合适的数据库方便数据爬取。
5-8周: 完成核心代码的开发和调试,在前期建立的基础系统的前提下,进行深入的研究,完成课题的核心代码部分内容并对目标网站进行试爬取,查看爬取信息是否符合预期,同时针对爬取速度以及精确度等问题进行相应的代码改动,最后对爬取的数据进行合理的分析。
9-10周:完成系统测试和毕设论文撰写工作,进行设计的最后修改和完善工作,同时撰写毕业论文,对系统进行最后的测试,为毕设答辩做准备。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。