1. 研究目的与意义
我们生活在大量数据世界里,由很多原因都会导致数据库中存在错误的数据,例如不规范的数据库设计、不合理的管理操作、数据采集的随机误差等,所以数据预处理显得尤为重要。
数据预处理是数据挖掘与分析的重要基础,在大数据分析处理日益彰显其价值的今天,数据预处理显得更加重要。
数据表中空缺值的存在一直是数据预处理需要解决的一个主要问题。
2. 课题关键问题和重难点
1、我的设计是否可行。
2、数据算法的时候是用SQL统计效率高还是JAVA处理数据性能好。
3、是不是真正的理解了面向空缺值处理的数据预处理。
3. 国内外研究现状(文献综述)
近些年,由于计算机管理信息系统普遍应用于各行各业,为此,积累的数据量日益增大,为使这些数据发挥其应有的作用,为相关行业的管理、决策提供强有力的支持.提高经济和社会效益,由此诞生了数据挖掘、知识发现,其方法技术强调面向应用,因此,其应用效果日渐彰显,越来越受到业内人士的注意和重视。
对于数据分析而言,数据是核心。
但是并不是所有的数据都是有用的,大多数数据是参差不齐的,概念层次不清的,数量级不同的,这就给后续的数据分析和数据挖掘带来的极大的麻烦,甚至导致错误的结论。
4. 研究方案
1.研究目标 通过固定值填补、均值填补、同类均值填补等算法,来实现一个基于Java编程语言开发的一个空缺值处理的数据预处理系统,主要实现数据预处理的算法,通用场景中的数据预处理问题的设计分析和实现。
2.研究内容1)、固定值填补中的这个固定值设置多少,固定值是通过怎么的方式进行计算的出来的,固定值的出来,会不会随着系统数据的增加而变化。
2)、均值填补方法,怎么计算这个均值,是全部数据求平均值,还是抽样进行取平均值。
5. 工作计划
1、3月2日-3月27日(第1周-第4周)完成开题报告和外文翻译,并上传至毕业设计网站。
2、4月6日-4月17日(第6周-第7周)计划进度进展情况;存在的问题及解决的方案;任务调整;中期检查表的电子文档上传。
3、5月4日-5月22日(第10周-第12周)撰写并修改毕业设计论文,然后上传。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。