1. 研究目的与意义
随着全球信息技术的迅速发展和互联网的快速普及,现代信息系统进入了大数据时代,人们日常工作和生活都面对着数据过量和信息爆炸的情况,迫切需要一种有效的技术手段帮助人们从这些海量数据中挖掘出真正需要的、有价值的知识,因此数据挖掘算法成为了研究热点。
本文以提高数据挖掘算法的时间效率和应用性为目的,进行了经典数据挖掘算法及其应用方面的研究。
论文从课题的研究背景和意义展开,介绍了数据挖掘的相关概念、意义与基本技术;主要研究了基于密度的聚类算法DBSCAN、粗糙集属性约简算法和BP神经网络算法。
2. 课题关键问题和重难点
【关键问题】(1)对样本点进行建模(2)将聚类文件读入系统内存(3)将聚类结果清晰、直观的展示给用户【难点】1.如何使用JAVA实现DBSCAN算法2.如何获取用户要进行聚类的文件3.当数据量比较大的时候,如何优化代码从而降低系统内存和IO的占用率
3. 国内外研究现状(文献综述)
【算法起源】 俗话说:物以类聚,人以群分,在自然科学和社会科学中,存在着大量的分类问题。
所谓类,通俗地说,就是指相似元素的集合。
聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。
4. 研究方案
所谓聚类,就是把大量的d维数据样本(n个)聚集成k个类(k,n),使同一类中样本的相似性最大,而不同类中样本的相似性最小。
从这个角度出发,就可以设计一个密度函数,计算出每个样本附近的密度,从而根据每个样本附近的密度值来找出那些样本相对比较集中的区域,这些区域就是我们要找的类。
对于高维空间,由于点在空间中的分布比较分散,不太容易形成支持度较高的聚类。
5. 工作计划
五、工作计划(不少于300字)第1周:撰写开题报告和完成外文翻译。
第2周:进行课题总体规划和课题的详细设计。
第3-5周:进行课题模块化设计并进行模块代码编写与调试。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。