网页信息抓取的设计与实现开题报告

 2022-09-09 14:49:07

1. 研究目的与意义

网络上的信息分散在数以十亿计的网页中,而这些网页由遍布地球各个角落数以百万计服务器负责存储,数据信息量非常庞大并且呈现出来的是非结构化的文本信息,所以将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页,并且网页上有大量广告等无关数据。所以需要一个能基于某个主题搜索的满足特定需求的网页抓取程序,并且从页面中解析出有用的信息,从而用户阅读信息时可以节省大量的时间。

2. 研究内容和预期目标

对网页中某一个主题信息抓取的设计与实现,最关键的问题就是网页的获取,主题数据的判定,网页数据的解析(包括去除页面上大量的广告等无用数据)和非结构化数据到结构化数据的转化。而是上面的问题就是本课题必须解决的关键性问题。

研究内容:

1. 查阅学习国内外网页信息抓取的相关文献,分析了解当前可行的网页信息抓取方法和技术。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究的方法与步骤

本课题采用瀑布模型进行开发,并在各个阶段得到相应的文档。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献

[1]Robert Vieira 著 杨华 腾灵灵 译. SQL Server 2008 高级程序设计[M]. 清华大学出版社出版,2010.4

[2]陈天河 等著. Java数据库高级编程宝典[M]. 电子工业出版社,2005,10.

[3]罗刚王振东著. 自己动手写网络爬虫[M]. 清华大学出版社出版,2013.8.

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 计划与进度安排

1.第一周~第四周(2.22-3.6):完成文献综述和开题报告。

1)第一周,收集大量与网页抓取相关的国内外文献。

2)第二周,继续收集文献,并阅读和了解当前最主要网页抓取的技术。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。