1. 研究目的与意义
互联网上有越来越多的网站可以提供有关二手房数据信息。
在实际搜索人们的二手房数据信息的过程中,二手房数据信息可能会分布在网站的各个页面上,人们如果想对信息进行比较,往往需要同时打开多个页面作为参考,所以要想收集多个信息, 这是一个繁琐和枯燥的过程,它需要大量的时间。
此外,当搜索完成时, 如果对二手房数据信息的分类和整理,也是一条一条记录,很容易产生错误,所以这种传统的手动查询不能满足现实生活的需要。
2. 课题关键问题和重难点
1、数据抽取与集成。
这是因为大数据处理的数据来源类型丰富,大数据处理的第一步是对数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合等操作,按照统一定义的格式对数据进行存储。
现有的数据抽取和集成方法有三种,分别是基于物化或ETL方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎。
3. 国内外研究现状(文献综述)
调研报告1、 网络爬虫及其应用网络爬虫,又称为网络机器人或者网页蜘蛛,是一种按照一定规则自动抓取万维网信息的程序或者脚本。
网络爬虫大致可以分为通用网络爬虫、聚焦网络爬虫、增量式网络爬 虫以及深层网络爬虫等类型。
在实际的网络爬虫系统中,通常是结合了几种爬虫技术实现的。
4. 研究方案
1、本课题主要应用技术:(1).Python网络爬虫技术:Requests , Beautifulsoup(2).Python数据分析技术:Numpy, Matplotlib, Pandas(3).k-means聚类算法2、数据采集:该部分通过网络爬虫程序抓取链家网上所有南京二手房的数据,收集原始数据,作为整个数据分析的基石。
3、数据清洗:对于爬虫程序采集得到的数据并不能直接分析,需要先去掉一些脏数据,修正一些错误数据,统一所有数据字段的格式,将这些零散的数据规整成统一的结构化数据。
4、数据可视化分析:在数据清洗完成后,我们就可以开始对数据进行可视化分析。
5. 工作计划
第1~3周(02-26至03-18) 熟悉南京房产(二手房)建模与可视化分析设计方法,完成本课题的相关问题定义与可行性研究、提出具体设计方案,完成需求分析。
第4~7周(03-19至04-15) 动手南京房产(二手房)建模与可视化分析设计,完成基于Python的网络爬虫系统的设计。
本次课题爬虫对象为基于链家网站的南京二手房信息。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。