基于Python的网络爬虫设计与实现开题报告

 2022-07-13 15:58:06

1. 研究目的与意义

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页,并且获得用户需要的数据。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。同时,一个灵活的爬虫也可以有很高的科研价值,它可以从网上获取很多数据,在大数据的今天数据的价值是非常可观的,对数据进行研究和分析,获得成果指导人们。

2. 研究内容和预期目标

论文主要研究搜索引擎的搜索器(网络爬虫程序)的设计与实现,实现简单的可在后台灵活高效自动运行的爬虫程序。

1.可以多线程进行抓取。

2.可以进行面向主题的抓取。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括Nutch,Larbin,Heritrix。网络爬虫最重要的是网页搜索策略(广度优先和最佳度优先)和网页分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。现在国内外已经有很多成熟的爬虫软件和爬虫框架。减少了开发者很多的问题。

4. 计划与进度安排

2022.12.20-2022.01.10 查阅资料完成任务书 ,完成开题报告

2022.01.11-2022.03.12熟悉Python,及开发环境和工具

2022.03.13-2022.04.24 查阅资料,进行论文基本章节的写作,完成初稿,并完成进行代码编写

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

[1]Winter.中文搜索引擎技术解密:网络蜘蛛 [M].北京:人民邮电出版社,2004年.

[2]罗刚 王振东.自己动手写网络爬虫[M].北京:清华大学出版社,2010年10月.

[3] (美)高森.Python网络编程基础.电子工业出版社2007年6月

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。