1. 研究目的与意义
非平衡数据在大数据环境下有着十分广泛的现实意义,如在产品推荐领域、医疗诊断、雷达图像监测、诈骗检测、金融贷款管理、企业破产预测、电信设备故障预测等领域中有着广泛的应用前景和现实意义。因此如何将非平衡数据集进行正确分类已经成为目前机器学习和数据挖掘的一个研究热点。
传统的情感分类方法都是针对正、负评论文本数相等的情况下而设计的,这显然已经不能适应于处理实际数据的需求。因此,如何解决非平衡文本情感分类问题,已经成为机器学习、数据挖掘等学者们讨论和研究的热点问题,已有许多学者开始关注并尝试解决这一问题,并提出了一些好的解决方法。再如经过探究支持向量机参数对结构域边界信号不敏感的原因,将蛋白质结构域边界检测问题归结为非平衡数据学习问题,即蛋白质结构域问题中的结构域内部为多数的负类;结构域边界为少数的正类,提出支持向量机特征空间中对与正类样本具有距离最大熵值的负类样本进行采样的新的欠采样方法。这些都是需要利用非平衡数据的一些重要方法、信息结论来进行研究。非平衡数据集进行正确分类已经成为目前大数据背景下机器学习和数据挖掘的一个研究热点。但普通的机器学习算法不能很好的解决该类数据的预测问题。
虽然国内外学者在非平衡数据集分类问题的研究方面已经取得了一些成绩, 但这仅仅是初步的研究, 还面临一些亟需解决的问题。如各类学习样本数量的不均衡是否一定会降低传统分类方法的性能? 进一步地, 影响分类器性能的因素有哪些, 这些因素对各种不同的分类方法的影响是否相同?其中改进原有算法或者设计更有效的新算法是分类学习研究中最主要的组成部分。目前主要算法集中在如下四个不同的途径: 代价敏感(cost-sensitive) 学习、支持向量机方法、单类(one-class) 学习、组合(combining) 方法等。
2. 研究内容和预期目标
本项目的主要研究目标是研究出一种新的非平衡复杂数据下的数据挖掘方法并在实际项目中予以应用。具体的:
(1)提出一种大数据背景下的非平衡复杂数据挖掘方法。
(2)至少能在智能建筑、金融信贷、生物三个领域中的两个方面有所应用。
3. 研究的方法与步骤
首先采集或构造大量实验数据集,建立衡量数据复杂度及分类性能的各个量化指标,采用SVM 对实验数据进行分类学习。在此实验数据基础上,运用频繁关联规则,支持向量回归机等构建各指标与分类性能之间的因果关系,建立相应知识库,以指导后续算法研究。
4. 参考文献
[1]Y. Zhang, J. Skolnick,SPICKER: A Clustering Approach to Identify Near-Native Protein Folds, Journal of Computational Chemistry, 2004 25: 865-871.
[2]Y. Zhang, J. Skolnick,Scoring function for automated assessment of protein structure template quality, Proteins, 57: 702-710 (2004)
[3]J. Xu, Y. Zhang,How significant is a protein structure similarity with TM-score=0.5?Bioinformatics, 26, 889-895 (2010)
5. 计划与进度安排
(1)2022.2.1----2022.3.1查阅资料,撰写开题报告
(2)2022.3.2----2022.3.15需求分析,熟悉开发工具
(3)2022.3.16----2022.3.25概要设计
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。