1. 研究目的与意义
新兴技术的不断发展逐渐颠覆了人们的传统生活方式,尤其是在购物领域变化特点显著,从最早的集市到大型商城,再到现在巨大规模的电子商务,商品数量也从几百种迅速增加到万种甚至亿万种,已经远远不是商城可以容纳的下的,而互联网的发展则使得这些商品信息都被收集在共享网络上以便于所有网民的访问。然而,单靠消费者自己的搜索是无法满足信息时代销售额的要求的,于是推荐算法便应运而生。通过算法可以在消费者看似杂乱无章的购买记录中挖掘出一些商品之间的关联规则,从而可以根据某一搜索记录实现商品的自我推荐。但是大数据时代,海量的数据集对于传统的数据挖掘算法显得过于吃力。本课题采用了基于Hadoop的Apriori算法化,将传统的数据挖掘算法部署到hadoop集群中,用MapReduce模型实现并行以求提高数据挖掘算法的运行效率,并对结果进行分析,检验关联规则的有效性。
2. 研究内容和预期目标
本文对消费者购买的商品之间的相关性和挖掘关联规则进行了研究,通过对大量消费数据进行商品关联规则的挖掘,筛选出消费数据中重要规则,然后根据产生的规则掌握消费者的购物习惯并加以预测,以实现实时的商品推荐。本文主要包含几个方面的研究内容:
1. 研究电子商务系统以及消费记录数据的特点,系统地分析其中的相关性。
2. 研究数据挖掘技术在商品推荐中的应用。
3. 国内外研究现状
数据挖掘,(KnowledgeDiscovery in Databases.KDD).KDD[3]一词首次出现在 1989 年 8 月举行的第 11 届国际联合人工智能学术会议上。数据挖掘是一个新兴的边缘学科,其融汇了来自模式识别、机器学习、统计学、数据库、人工智能以及管理信息系统等各学科的成果。促使多个学科的知识相互促进与相互渗透,使得这一学科得以蓬勃发展。经过多年的发展,数据挖掘技术本身也越来越受到社会的认可,目前为止,数据挖掘技术在各行各业得到了广泛应用。数据挖掘这一词也出现在了很多领域,比如电信、零售(例如大型超市)、金融、交通、保险、银行等商业领域。很多公司为了适应市场发展的需要,研发出了许多适应现代化技术应用的数据挖掘产品。与国外相比,由于我国在这项技术方面起步较晚,国内对数据挖掘系统的研究没有形成整体力量,在很多方面不如国外的技术先进,起步比较晚。但是,随着这项技术在我国的发展,数据挖掘技术已经开始引起了足够高的重视,越来越多的专家学者投入到数据挖掘的研究工作中来。提出的新理论和方法越来越多的被广泛应用到各种企业中作为决策的参考。因此数据挖掘技术在我们平常社会生活中起着不可忽视的作用。
并且这些年关联规则算法和云计算技术都得到了巨大的发展。1994年,Agrawal等人通过统计获得频繁项集的关联规则方法,将其命名为Apriori算法。但该算法需要频繁的扫描原始数据库,加重I/O负载,并且花费大量时间。随后很多学者在该算法的基础上提出了改进的算法。近些年,关联关系的并行算法被相继实现,大大提高了挖掘效率。随着云计算的迅猛发展,谷歌、亚马逊、微软等国际互联网行业巨头纷纷把云计算作为主要的发展战略。谷歌于2003年发布Mapreduce编程模型,随后一众网络公司在其基础上进行改进并应用到项目中。雅虎公司在 Mapreduce的基础上加入Merge函数,组成Map-Reduce-merge框架,合并两个结果数据集合,Facebook团队在Hadoop上构建了Hive软件,把SQL转化为Hadoop的MapReduce程序。
4. 计划与进度安排
第一章介绍了论文的研究背景和意义,首先介绍了电子商务的发展,对国内外的研究现状进行了分析,然后对数据挖掘的发展进行了介绍,介绍了商品推荐领域数据挖掘的应用,并对本文的结构做了安排。
第二章主要对商品推荐系统进行了研究,首先介绍了商品推荐系统的结构,研究消费记录和数据特点,对原始数据要实现怎样的预处理进行介绍,讨论关联规则在商品推荐中的应用。
第三章对数据挖掘的现实意义进行介绍,主要介绍关于Hadoop编程模型和其执行流程,重点介绍了关联规则算法中Apriori算法及其并行化,将传统Aprioir算法部署到Hadoop上方法。
第四章主要还原了传统Apriori算法在MapReduce上实现并行化具体实验过程,并数据挖掘算法的运行效率和准确性进行分析,讨论了其在商品推荐系统中的实用性。
5. 参考文献
[1]基于MapReduce的Apriori算法并行化[J]. 林长方,吴扬扬,黄仲开,曾少俊.江南大学学报(自然科学版). 2014(04)
[2]The hadoop distributed file system.Shvachko K,Kuang H,Radia S,et al. IEEE Symposium on Mass Storage Systems andTechnologied . 2010
[3]R.Agrawal,T.Imielinski,andA.Swami.Mining association rules between sets of items inlarge databases.Proceedings of the ACM SIGMOD Conference on Managementofdata,1993:207-216
[4]关联规则挖掘Apriori算法的研究与改进[J]. 刘华婷,郭仁祥,姜浩.计算机应用与软件. 2009(01)
[5]鲍玉斌,王大玲,于戈.关联规则和聚类分析在个性化推荐中的应用[J].东北大学学报(自然科学版),2003,24(12):1149-1152
[6]Hadoop平台中MapReduce调度算法研究[J]. 徐焕良,翟璐,薛卫,任守纲.计算机应用与软件. 2015(05)
[7]关于数据挖掘研究现状及发展趋势的探究[J]. 任新社,陈静远.信息通信. 2016(02)
[8]An Improved Apriori Algorithm Based Onthe Boolean Matrix and Hadoop[J] . Honglie Yu,Jun Wen,Hongmei Wang,Li Jun.Procedia Engineering . 2011
[9]基于MapReduce的海量关系数据处理技术设计与优化[D]. 黄奇鹏.武汉邮电科学研究院 2018
[10]Hadoop集群的部署与管理系统的设计与实现[D]. 王宾.南京大学 2013
[11]周兵,沈钧毅,彭勤科.集群环境下的并行聚类算法[J.计算机工程,2004,30(4):4-6.
[12]刘兴雨.数据挖掘技术及其在电子商务中的应用.计算机系统应用,2001,(6):46-47
[13]余楚礼;基于Hadoop的并行关联规则算法研究[D];天津理工大学;2011年
[14]田迪,基于粗糙集的电子商务智能推荐系统研究[D]浙江理工大学.2012
[15] J.L.Lin,andM.H.Dunham.Mining association rules:Antl一skewalgonthjrns.
Proeeedings of the International Conferenceon Data Engingeering,Orlando,Florida,February 1998.
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。