并行K-means聚类及其在淘宝用户评价中的研究开题报告

 2022-08-15 09:24:28

1. 研究目的与意义

数据挖掘,又称为数据库中的知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中未知的、有潜在应用价值的信息或模式的过程。随着科技的进步,网络的普及,计算机技术得以迅猛发展,使人们有更多机会使用便捷的方法与外界进行信息交流,以及对各种数据的加工处理让人们更加方便使用这些数据。逐渐扩大的信息量使大数据的聚类变成了一个具有挑战性的任务。在本次课题中,会提出一种基于MapReduce的并行k-means聚类算法。这种算法是数据挖掘中的重要算法,能够从大量的数据中找到有用信息,并且清晰地展现出来。在科技迅速发展的今天,越来越多人选择网上购物,淘宝也被人们广泛使用,在选择商品时总会翻看其商品评价,然而杂乱无章的评价会影响判断,所以,为了明确商品的价值好坏,需要对其中的数据进行筛选提取,这就用到数据挖掘算法了。本文会根据这一点对k-means算法进行深刻研究并加以改进,实现并行化,再通过其在淘宝用户评价数据挖掘结果中展现出来。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和预期目标

本文主要研究k-means聚类算法的并行化,通过hadoop将这个聚类算法与MapReduce框架相结合,提高算法的执行速率。用爬虫软件从淘宝中爬取某商品的数据,再分别使用并行和串行的算法对数据进行处理,并对并行算法加以改进,分析比较两种算法的优缺点。其中最关键的步骤就是算法的实现,需要阅读大量资料,对算法步骤,程序代码熟练掌握才能高效完成实验。

3. 国内外研究现状

聚类分析作为统计学、机器学习和数据挖掘等领域的交叉学科,吸引了众多研究者投身其中,使之成为数据挖掘研究领域的一个非常活跃的研究课题。迄今为止国内外的研究者们提出了很多聚类算法,主要的聚类方法可以分为:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。目前针对聚类算法的研究主要着重于两个方面:第一,关于需要聚类对象的输入顺序以及初始聚类中心的选择方面。这是聚类研究中的一个重点,因为这两个因素会影响到聚类结果的好坏,如何能使最终的聚类结果达到全局最优是需要进一步研究的方向。第二,关于算法执行效率的方面。除了聚类的质量,效率也是算法优劣至关重要的考虑因素,随着数据量的急剧增加,海量数据处理提上日程,因此如何改进现有聚类算法,提高算法效率,使其能够快速有效处理大规模数据成为需要解决的另一个研究课题。

针对以上算法的不足,学术界提出了若干的方法,从不同的方面减少了初始值选择不当所带来的影响。在最初的算法中,MacQueen以平方距离和Wn作为目标函数,以此作为聚类质量的衡量标准,并且证明了Wn的收敛性。1978 年Hartigan分析了在一维空间中的K-means算法,令k为2,即将全部数据集合划分为两个簇,以此证明了可以采用概率收敛点定义最佳分割点。Pollard7验证了Hartigan的结论,将其推广到了多维的空间,从而提出了K-means 算法新的聚类质量的衡量标准:不仅要保证Wn收敛,而且还要保证各聚类中心也已经收敛到了最优解。1995 年Chinrungru-eng提出了新的改进算法,即在已有算法的基础上,加入了两种新机制,一是允许算法在自适应的过程中要摆脱Wn的干扰;二是要采用反馈方式,通过计算当前已有的聚类质量动态的调整算法的收

敛速度。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 计划与进度安排

1.阅读大量相关课本书籍,了解相关内容,充分吸收相关知识。

2.研究并在hadoop平台上完成传统串行算法在淘宝数据挖掘中的实现。

3.对比已完成的串行算法,对对应的并行算法进行分析和改进,完成并行算法的实现。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 参考文献

计算机工程与应用2019年23期

K-means聚类算法的改进与应用

基于Spark的K-means改进算法的并行化实现

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。