基于Scrapy的贴吧爬虫系统设计和实现开题报告-毕设开题网

全文总字数：2481字

1. 研究目的与意义（文献综述）

虽然不止百度有贴吧，但目前最具影响力的只有百度贴吧，所以我的选题——贴吧爬虫系统是专门针对百度贴吧，以下所说的贴吧都是指百度贴吧。

作为一个经常接触各种线上论坛和社区的大学生，贴吧在很长一段时间里都是我最常去的在线社区之一。贴吧作为一个线上交流平台，它将那些对有相同兴趣爱好的人们聚集在一起，通过发帖评论交流各自的看法认识，分享自己的生活——贴吧是一个闲聊唠嗑的交流平台；也可以交流对各自有用的资源或是发表技术帖，经验帖，攻略帖，互相帮助，更好的工作和学习——贴吧此时可以作为一个技术平台；作为以文字图片为主要表达形式的社区，也有人在贴吧上发表原创小说，无法牟利，只为表达和锻炼自己的文学才华，而且据我的观察，精彩的小说还不算少。或是编出一些段子笑话供大家娱乐，我本人也曾喜欢在贴吧看段子和小说——贴吧又是休闲娱乐的平台。这次选题即为贴吧爬虫系统，有一部分原因便是出于我对贴吧的兴趣，更多的是想要熟悉现今比较流行的python语言和爬虫技术，在本次毕业设计中锻炼自己的学习能力和编程能力，也开阔自己的视野。

贴吧是结合百度搜索引擎建立的，，以下，它的涵盖目录相当广泛，包括社会，地区，生活，教育，娱乐明星，游戏，动漫，小说，体育，企业，可以说，生活中的方方面面都能找到对应的这么一个帖吧。在2015年贴吧开始疯狂商业化变现之前，吧主本身就是贴吧的普通用户，基本上任何合法用户都可以创建属于自己的贴吧，然后聚集起有相同兴趣爱好的网友。它曾经有十分庞大的用户数量，2014年贴吧的活跃用户曾达到2亿之多，如此多的用户产生的的信息量相当庞杂，以至于即使后来的“血友吧事件”，“魏则西事件”发生，使得百度贴吧失信于社会，用户量开始下滑；以及现今的抖音，今日头条，微博等各类社交平台的崛起抢走了贴吧相当一部分的用户，贴吧的用户量依然不可小觑，产生的信息量也依然巨大。这些信息中不乏许多有价值的信息，想要高效的获取这些信息就需要有好的检索方法。通用的搜索引擎检索出来的信息有一定的局限性，它的目标是尽可能大的网络覆盖率，返回的结果通常有大量我们不需要的内容，因此有必要开发出专门针对贴吧的聚焦爬虫，从而更高效迅速的获取我们所需要的信息。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

基本内容和目标：使用python环境进行开发，采用web应用的形式实现如下功能：

1、信息检索：对贴吧帖子进行检索，可以选择在特定贴吧里检索或是某几个贴吧或是全部贴吧里检索，可以按照关键词检索，可以按照用户名检索。

2、信息整理：信息检索结果的过滤、删除、排序，可以按时间，相关性，回复量排序。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

(1) 2019/1/19—2019/2/28：确定选题，查阅文献，外文翻译和撰写开题报告；

(2) 2019/3/1—2019/3/7：查阅python开发资料，设计系统架构，搭建项目界面原型；

(3) 2019/3/8—2019/3/20：学习运用Scrapy相关知识，搭建爬虫原型，尝试爬取贴吧数据；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

《Python基础教程（第3版）》 Magnus Lie Hetland 人民邮电出版社
《Python爬虫开发与项目实战》范传辉机械工业出版社
《Python 核心编程》，Wesley J. Chun
剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文开题报告，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于Scrapy的贴吧爬虫系统设计和实现开题报告

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章

登录

1. 研究目的与意义（文献综述）

2. 研究的基本内容与方案

3. 研究计划与安排

4. 参考文献（12篇以上）

您可能感兴趣的文章