1. 研究目的与意义
随着信息化的飞速发展,大数据时代的到来,每个人每天产生的数据量呈现爆炸式的增长,其中一个显著的代表就是网站的流量,随着网络与移动端的普及,很多网站的访问流量由最初的几百几千发展到几万几十万。
对于如此之大的数据的处理,并从中得出有用的信息,便成了当务之急。
传统计算机的单机计算能力根本无法处理海量的数据,基于Hadoop的大数据处理平台就可以很好的解决数据量大的问题,同时,还可以通过Hadoop的计算能力,从中挖掘出用户的爱好,帮助网站更好的发展。
2. 研究内容和预期目标
一、研究内容 1.Hadoop集群的搭建Hadoop是一个分布式系统,具有高容错性和高吞吐量。
论文中的系统选用的是linux操作系统进行构建2. MapReduce算法的实现MapRduce是一个谷歌发明的分布式编程模型,本论文将利用它完成对数据的处理二、拟解决的关键问题 1.运行过程的自动化2.算法的并行化
3. 国内外研究现状
国外:Facebook使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。
目前Hadoop集群的机器节点超过1400台,共计11?200个核心CPU,超过15PB原始存储容量,每个商用机器节点配置了8核CPU,12TB数据存储,主要使用StreamingAPI和JavaAPI编程接口。
Facebook同时在Hadoop基础上建立了一个名为Hive的高级数据仓库框架,Hive已经正式成为基于Hadoop的Apache一级项目。
4. 计划与进度安排
2022-10-20至2022-11-20同老师学习和探讨毕业设计的有关问题并且确定选题;2022-11-21 至2022-12-20对设计的内容进行调研与了解并且撰写开题报告;2022-12-21 至2022-02-28对相关资料的收集,学习hadoop有关的知识;2022-03-01至2022-04-20 在hadoop平台上实现相应的算法,学习基于hadoop平台的一系列衍生品例如hive数据库,zookeeper等;2022-04-21 至2022-04-30将项目运行过程进行自动化部署,完成论文与设计;2022-05-01至2022-05-31撰写毕设报告;
5. 参考文献
[1]Tom.White.Hadoop:The Definitive Guide[M].2013.[2]陆嘉恒. Hadoop实战(第二版)[M].2012.[3]Hadoop apache 官方文档:Hadoop分布式文件系统:架构和设计4]Eugene Ciurana,我们为什么要关注Mapreduce?[EB/OL] http://www.kuqin.com/system-analysis/20080823/14773.html.2008[5]周峰,李旭伟.一种改进的Mapreduce并行编程模型.[J]计算机技术与信息发展,2009,02,65-66[6] 程苗,陈华平.基于Hadoop的web日志挖掘[J];计算机工程;2011年11期[7] 胡光民,周亮,柯立新.基于Hadoop的网络日志分析系统研究.[J]电脑知识与技术;2010,22[8]朱珠.基于Hadoop的海量数据处理模型研究和应用[D];北京邮电大学;2008年[9]李珺.基于Hadoop云计算模型探究[J];信息安全与技术;2011,06
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。