1. 研究目的与意义
聚类作为数据挖掘的基础功能,直接影响后续挖掘的效果。
不同聚类算法对数据集进行聚类可能有不同的效果,因此聚类算法有效性的度量在现实世界有着重要的实用价值。
针对该问题,本课题基于F-measure系数设计开发聚类质量衡量系统,实现对不同聚类算法聚类质量的度量。
2. 课题关键问题和重难点
1.寻找一种简单的聚簇集的表示方法,要易于转化,方便简洁,从而为本论文设计的聚类质量衡量系统提供友好接口,具体设计如下:对于标准聚类结果和待评价聚类算法,准备采用样本总数和聚类类别两个输入的方法。
样本总数即需要聚类样本的总数,聚类类别是指对聚类的结果把所有类别从1到聚类总数m进行排序,样本1到n分别对应哪一个类别,即记录k∈(1,2,3,..,m)为聚类类别,因此聚类类别是一个n维向量。
2.理解并实现F-measure值分析和计算,理解其中的Recall和Precision表示的含义。
3. 国内外研究现状(文献综述)
聚类是数据挖掘处理中的一项重要任务.通过聚类分析可以发现隐含在数据集中的簇,标识出有意义的模式或分布。
聚类是将一组对象分成若干个簇,使得簇内对象尽可能相似,不同簇对象之间具有最大的差异性。
聚类过程是一个寻找最优划分的一个过程,即根据聚类质量的评价准则不断对划分进行优化,最终得到最优解。
4. 研究方案
F-measure是公认的简单而实用的聚类质量衡量标准,是一种外部评价法,可以与事先指定的标准的聚类结果进行比较从而计算出当前聚类结果的质量。
对于标准聚类结果和待估计聚类算法结果,通过聚类类别这个输入参数,可以直接找到某一种聚类的聚类个数,通过比较这两个聚类类别参数可以确定这两个类别的交集,从而计算出Precision和Recall两个指标。
之前阅读了matlab相关书籍,有一定的编程基础,而F-measure要求的编程算法简单易行,可以完成相关程序设计。
5. 工作计划
2022年1-2月:研读聚类质量评估的相关论文,提取几种常用的聚类质量衡量方法,写文献综述,并完成开题报告。
2022年3月:设计软件原型。
需要花两到三周时间熟悉matlab编程语言,设计简单的函数,实现论文要求的功能。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。