1. 研究目的与意义
随着信息技术的高速发展,互联网积累了超大规模的数据,这些数据包含着丰富的信息内容。
从这些庞大的数据中发现对其生活、工作有益的潜在信,如何快速准确地分析现有数据,最大程度地获取其蕴含的价值,已经成为许多公司和学者共同面对的问题。
聚类算法在所有的数据挖掘方法中占有举足轻重的地位,是将待分类对象从未知过渡到已知的有效措施。
2. 研究内容和预期目标
主要研究内容为:
聚类算法的并行化实现方法,在Hadoop平台将K-means聚类算法与MapReduce框架结合,提高算法的执行速度。论文研究内容包括将优化的K-means聚类算法在Hadoop平台实现并行;对聚类算法行改进,使其在Hadoop平台实现并行化;具体内容为:
1.分析传统串行聚类算法的限制,明确需要改进的细节。2.对hadoop平台与mapreduce框架进行详细的了解,为并行化做铺垫。3.并行化K-means算法
3. 国内外研究现状
目前针对聚类算法的研究主要着重于两个方面:第一,关于需要聚类对象的输入顺序以及初始聚类中心的选择方面。
这是聚类研究中的一-个重点,因为这两个因素会影响到聚类结果的好坏,如何能使最终的聚类结果达到全局最优是需要进一步研究的方向。
第二,关于算法执行效率的方面。
4. 计划与进度安排
2022.11.01-2022.11.29 完成开题报告 2022.11.30-2022.01.26 阅读文献,研究串行算法,为改进做铺垫 2022.01.27-2022.02.20 研究聚类算法并行化方案 2022.02.21-2022.03.13 完成初稿和中期检查工作 2022.03.14-2022.04.30 完成论文修改、定稿 2022.05.01-2022.05.22 完成答辩
5. 参考文献
[1] Jiawei H., Kamber M. Data mining: concepts and techniques. San Francisco. Morgan Kaufmann, 2000, 232-233. [2] 郑苗苗, 吉根林. DK-means: 分布式聚类算法K-DMeans的改进. 计算机研究与发展, 2007, 44(suppl Ⅱ): 84-88. [3]Armbrust M, Fox A. Above the clouds: a Berkeley view of cloud computing. Technical Report, University of California at Berkeley, USA, 2009. [4]Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. Communications of the ACM, 2008, 51(1):107-113. [5]H-CLAP: hierarchical clustering within a linear array with an application in genetics.[J]. Ghosh Samiran,Townsend Jeffrey P.Statistical applications in genetics and molecular biology. 2015(2)
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。