基于Python的网络信息爬虫采集与应用开题报告

 2022-07-13 15:41:15

1. 研究目的与意义

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。

搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。

但是,这些通用性搜索引擎也存在着一定的局限性。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

网络爬虫应用宽带搜索技术。

对url进行分析,去重。

网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状

对于网络爬虫的研究从上世纪九十年代就开始了,目前爬虫技术已经趋见成熟,网络爬虫是搜索引擎的重要组成部分。

网络上比较著名的开源爬虫包括Nutch,Larbin,Heritrix。

网络爬虫最重要的是网页搜索策略和网页分析策略。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

参考网上开源的网络爬虫和网络爬虫相关的书籍,结合当下热点话题,爬取具有时代性的数据,并加以处理和分析。

5. 参考文献

1.Python基础教程 人民邮电出版社 2010.07 2.Python核心编程 人民邮电出版社 2008.07 3.图解HTTP 人民邮电出版社 2014.05 4.自己动手写网络爬虫 清华大学出版社 2010.10 5.HEAD FIRST AJAX 中国电力出版社 2009.07 6.SQL入门经典 人民邮电出版社 2011.11 7.MongoDB权威指南 人民邮电出版社 2014.01 8.精通正则表达式 电子工业出版社 2012.07 9.Flask Web开发 人民邮电出版社 2015.01 10.Internet资源

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。