1. 研究目的与意义
在当前万维网的高速发展下,网络上的倍息呈爆炸式增长,其结果便是人们在网上找到所需的倍息越来越难,直接引导了搜索引擎的产生。
搜索引擎搜集互联上数以亿计的页面,而如何从这些页面中高效并精准的获取信息便成为了一个难题,网络爬虫因此而生。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
2. 课题关键问题和重难点
网络爬虫是一个程序或者脚本,人为的编写规则,网络爬虫程序根据规则对指定网址进行信息的获取。
趋近完美的程序拥有高效、精准、及时的效果。
网络爬虫并非一件容易的问题,想要实现一般需要面对两个大的问题:(1) 爬虫本身程序的问题:高并发的实现,分布式的实现,数据的筛选及存储。
3. 国内外研究现状(文献综述)
随着数据科学的迅速发展,诸如机器学习,人工智能等新兴技术极大地方便了人们的生活。
来越多的应用涉及到大数据,而这些大数据的属性、包括数量、速度、多样性等等都是呈现了大数据不断增长的复杂性。
从而,大数据的获取和分析在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。
4. 研究方案
1. 系统功能结构系统总体功能结构如图1所示 图1 基于爬虫技术的就业信息可视化设计功能结构1)数据挖掘部分页面信息获取:基于requests库来获取指定招聘网站页面信息。
页面数据格式化:基于BS4库来解析节点及其属性值。
即获取公司,职位,地点,薪资等标签节点信息。
5. 工作计划
2022-2022-1学期:第15-16周:完成选题,查阅相关中英文资料。
第17周:与导师沟通进行课题总体规划。
第18-19周:导师下发毕业设计(论文)任务书,学生根据导师的要求进行外文翻译,列出开题报告大纲,进行开题报告的撰写。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。