1. 研究目的与意义
在网络技术的快速发展之下,电子商务、门户网站以及社交网络呈现一片繁荣,同时也产生并积累了大量数据,大数据时代已然到来。数据的爆炸,使得具有潜在价值的数据大大增加,同时无形间也增加了处理利用这些数据的难度,信息超载由此产生。目前人们只能通过部分条件的删选找到需要的数据,但通常情况下用户只可能提供了其中的一个或几个方面。面对繁杂、冗余且具有不完整性和不确定性的数据,如何对这些数据进行挖掘,从而找出有用的数据成为研究的热点。
目前国内外学者对数据挖掘技术已经有了一定的研究,但提出的方法有着种种局限性,本文基于数据挖掘技术,通过提出一种新的基于变精度容差关系扩展粗糙集的方法,为用户在繁杂的网购信息中,找到实用的、适用的商品。
2. 课题关键问题和重难点
本课题的关键问题为:
1)提出新的基于变精度容差关系扩展粗糙集的个性化推荐方法;
2)建立数学模型;
3. 国内外研究现状(文献综述)
三、文献综述
3.1 理论背景
3.1.1 认识的不确定性
粗糙集理论产生,其本质是由人类对于未知事物的认识规律决定的。孔芝(2010)在其博士论文中就提出,人类认识外界事物是一个过程,这个过程是循序渐进的,不断发展的,逐层深入的,永无止境的。他认为,我国对于事物不确定性认识的思想,可以追溯到春秋战国时代。中国古代哲学思想认为人类其实无法跳出认知与思维过程中被自我限定的概念范畴。所以,他提出人类永远无法既正确又完整地认识这个世界,不确定性永远存在。[1]而粗糙集理论正是基于不确定性展开的。
3.1.2研究发展历程
粗糙集理论,作为分析解决不确定问题的方法之一,其研究历程是伴随着人们对于不确定问题的研究展开的。笔者整理并结合郑桂琳(2007)、孔芝(2010)、高阳(2010)、徐敏(2010)等学者的所归纳的材料,将不确定性问题的研究的大致历程列出如下:
16世纪,意大利的学者吉罗拉莫卡尔达诺(Girolamo Cardano)开始研究掷骰子等赌博中的一些简单的不确定性问题。17世纪欧洲数学家开始探索用古典概率来解决赌博提出的一些问题。当时人们通过不断重复简单的抛硬币实验,发现一枚质地均匀的硬币在抛掷的过程中,正面和反面出现的概率各占50%,这也成为概率论史上的一个里程碑[2]。
1965 年美国控制论学者L.A.扎德发表论文《模糊集合》,标志着模糊数学的诞生。模糊数学的产生很好的解决了由于普遍存在的事物不确定性,而导致的有些事物既在质上没有确定的含义,又在量上没有明显的界限的问题[3]。
20世纪70年代初,波兰学者Pawlak.Z领导的波兰科学院和华沙大学的研究小组,开始对信息系统逻辑特性进行长期基础性的研究。
1982年,Pawlak.Z在《国际计算机与信息科学杂志》(International Journal of Computer and Information Sciences)上发表了《粗糙集》(Rough Sets)一文,标志着粗糙集理论正式提出。
1991年,Pawlak.Z的专著《粗糙集关于数据推理的理论》(Rough Sets Theoretical Aspects of Reasoningab out Data)的问世,标志着粗糙集理论及其应用的研究进入了活跃期。
1992年,第一届粗糙集理论国际会议在波兰召开。
1993年,Ziarko.W变精度粗糙集(VPRS)模型的思想,在经典粗糙集模型的基础上引入噪声阈值,使模型的鲁健性增强。同年,第二届国际粗糙集与知识发现研讨会在加拿大召开。
1994年,第三届国际粗糙集与软计算研讨会在美国召开。
1995年,第四届模糊理论与国际技术研讨会在美国召开。
1996年,在日本东京召开了第五届国际粗糙集研讨会,这是第一次在亚洲召开的范围广泛的研讨会[4]。
1998年6月在波兰华沙召开了第一届粗糙集和计算的当前趋势学术会议。
1999年9至11月在日本召开了第七届粗糙集,Fuzzy集、数据挖掘和粒度软计算的国际学术研讨会(The Seventh International Workshop on Rough Sets, Fuzzy Sets, Data Mining and Granular-Soft Computing(RSFDGRC'99 )),阐述了当前粗糙集、模糊集的研究现状和发展趋势,指出将着重在软计算、数据库、人工智能和近似推理等方面开展理论和应用[5]。
2000年10月在加拿大又召开了第二届粗糙集和计算的当前趋势学术会议[7]。
2001年,第一届粗糙集与软计算学术研讨会在重庆召开。
2006年10月31日,中国粗糙集与软计算学术研讨会在浙江师范大学召开。
2014年8月8日至8月10日在昆明理工大学召开了第十四届中国粗糙集与软计算学术会议、第八届中国Web智能学术研讨会及第八届中国粒计算联合会议。
可见,粗糙集理论的研究不断深入,其应用包括数学、计算机、商业、医学在内的多个领域。
3.2 个性化推荐方法
安悦,李兵,杨瑞泰等(2014)给个性化推荐系统做了如下定义:个性化推荐系统是指在为用户和信息产品之间建立二元关系的基础上,利用用户以往的选择过程或与其他用户的相似性关系,挖掘出该用户的潜在感兴趣对象,进而进行个性化推荐的系统[9]。协同过滤推荐系统、基于内容的推荐系统、基于网络结构的推荐算法、混合推荐算法是目前主流的四种个性化推荐方法。
1、协同过滤系统(Collaborative Filtering)。这是第一代提出并得到广泛应用的推荐系统。吕果,李法运(2014)在《基于改进协同过滤的移动个性化推荐服务研究》一文中,将协同过滤系统的原理解释为:根据相似用户的兴趣来推荐当前用户没有看过但是很可能会感兴趣的信息 [8],它所基于的假设是如果两个用户兴趣类似,那么很有可能当前用户会喜欢另一个用户所喜欢的内容。这不仅不需要考虑资源的表示形式、不受推荐物品的具体内容限制,而且具有相当高的准确性。第一个投入应用的协同过滤系统是Grundy。其他利用协同过滤方法进行推荐的系统有Amazon.com的书籍推荐系统,Phoaks的WWW信息推荐系统等等。
2、基于内容的推荐系统(Content-based)。安悦,李兵,杨瑞泰等(2014)指出:基于内容的推荐是协同过滤系统的延续与发展,它不需要依据用户对项目的评价意见,而是依据用户已经选择的产品内容信息计算用户之间的相似性,然后进行进一步的推荐[9]。在大多数的基于内容的推荐系统中,产品的内容常常被描述成关键词,Fab系统就是一个典型的例子,在我国目前的互联网应用中,例如北京奇虎科技有限公司所推出的360安全浏览器的猜你喜欢功能,所利用的就是基于内容的推荐系统。
3、基于网络结构的推荐算法(Network-based)。刘建国,周涛,汪秉宏(2009)在文章中总结了这种推荐算法:周涛和Huang.Z等利用用户产品,用二部分图建立用户产品关联关系,并据此提出了基于网络结构的推荐算法[2]。张翼成考虑用户对产品的打分信息,在更复杂的环境下实现了基于热传导和物质扩散的推荐算法,效果好于经典的协同过滤算法。
4、混合推荐算法(Hybrid)。协同过滤、基于内容以及基于网络结构的推荐算法在投入实际运营的时候都有各自的缺陷,集中体现在数据稀疏性、冷启动、无法适应用户兴趣的变化等问题上,严重影响了推荐算法性能。因此实际的推荐系统大多把不同的推荐算法进行结合,提出了混合推荐算法,目前,最常见的混合推荐系统是基于协同过滤和基于内容的。
以上典型方法难以处理不完备信息决策系统问题,亦即大数据环境下不完备决策信息系统的个性化推荐方法尚待研究。由于不完备决策信息系统越来越多,不完备决策信息系统下的个性化推荐问题的解决显得越来越重要。
3.3 粗糙集理论
3.3.1 已有的典型扩展粗糙集
1、基于容差关系的扩展粗糙集
Marzena Kryszkiewicz(1998)在《粗糙集理论在不完备信息系统》(Rough sets approach to incomplete information system)一文中提出了基于容差关系的扩展粗糙集,定义如下[10]:
显然T是自反和对称的,但不一定是传递的。
个体 的容差类定义为:
在容差关系下对象集X的下近似集和上近似集分别定义为:
该种方法认为遗漏值与任何值匹配,会将直观上没有任何相同值的对象判定在同一个容差类中,条件太过宽松。
2、基于相似关系的扩展粗糙集
Stefanowski J,Tsoukias A(1999)提出了相似关系,具体定义如下[13]:
显然,S具有自反性和传递性。
个体 的相似类定义为:
在相似关系下对象集X的下近似集和上近似集分别定义为:
该种方法会将一些具有大量相同已知属性值的对象分划在不同的相似类中,条件过于苛刻。
3、基于限制容差关系的扩展粗糙集
因为上述两种扩展模型均具有一定的局限性,王国胤(2002)在此基础上提出了基于限制容差关系的扩展粗糙集模型。限制容差关系定义为[12]:
其中 可以看出L具有自反性和对称性。
个体 的相似类定义为:
在限制容差关系下对象集X的下近似集和上近似集分别定义为:
该方法将所有属性值都不明确的个体对象单独处理,且和其他一些等价可能性很小的两个对象一样被认为是不可分辨的,故条件还是过于宽松。
4、基于修正容差关系的扩展粗糙集
为了进一步解决宽松的条件,刘富春(2005)提出了基于修正容差关系的扩展粗糙集[11]:
显然,D具有自反性和对称性,但不具有传递性。
的修正容差类D( )和修正容差关系下X的下近似集、上近似集分别定义为:
={ ∈U|( ) };
={ ∈U|D );
={ ∈U|D( )∩X≠ }
此种类型的扩展粗糙集事实上只在基于限制容差关系的扩展粗糙集的基础改进了一点点:将对象与本身分开进行考虑,认为不管该对象的属性取值情况如何,都认为与本身不可分辨,同时认为属性值全部为遗漏值的两个不同对象可以分辨。但是这种限制还是过于松懈,仍然会将直观看起来可以分辨的两个对象认为不可分辨。如对象(2,*,6,*,*),(2,*,*,8,*)。
3.3.2 已有的粗糙集应用
粗糙集理论作为处理不确定性问题的数学工具,虽然只经过三十几年的发展,但是在地质、人工智能、金融、政治、工业、农业和医学等多方面都取得了丰硕的成果,结合笔者所搜集到的文献,将部分成果列举如下:
年 份 | 作 者 | 文 章 | 成 果 |
1994 | Nejman.D | A rongh setbasedmethod ofhandwritten numberals classification | 研究了粗糙集方法在手写识别方面的应用。 |
1995 | Golan.R Ziarko.W | Methodology for stock market analysis utilizing rough set theory | 研究了股票价格和经济指数之间的关系,获得华尔街专家认可。 |
Deja R | Conflict model with negotiations | 研究了基于粗糙集的中东六国谈判模型。 | |
1996 | HuXiaohua | Mining knowledge rules from databasesa rough set approach | 研究了利用粗糙集进行数据库知识挖掘。 |
Tsumoto | Extraction of domain knowledge from databases based on rough set theory | ||
1997 | 苗夺谦 王 珏 | 基于粗糙集的多变量决策树构造方法 | 研究了基于粗糙集的决策树,大大提高了决策的准确度和效率。 |
1998 | 韩祯祥 张 琦 文福拴 | 粗糙集理论及其应用 | 用粗糙集化简神经网络训练样本数据集,保留重要信息的前提下消除了多余的数据使仿真实验表明训练速度提高了4.77倍。 |
1999 | 谢克明 杨 静 | 粗糙集理论及其在智能控制领域的应用前景 | 研究了粗糙集与模糊、神经网络等软计算方法的融合,极大地提高了混合智能控制系统的机器智商。 |
2000 | 徐立中 王慧斌 杨锦堂 | 基于粗糙集理论的图像增强方法 | 图像成影技术方面,徐立中等提出一种基于粗糙集的图像增强方法,大大满足了工程的需要。董广军等基于图像的粗糙集知识系统,提出了一种新的遥感图像知识分类算法。 |
2003 | 董广军 范永弘 罗 睿 | 基于粗糙集理论的遥感影像分类研究 | |
2001 | 秦中广 毛宗源 邓兆智 | 粗糙集在中医类风湿证候诊断中的应用 | 通过将粗糙集应用于类风湿的诊断,相较一般的模糊数学方法,准确率大大提高。 |
2004 | 莫 娟 王 雪 董 明 等 | 基于粗糙集理论的电力变压器故障诊断方法 | 基于粗糙集理论提出了一种能较好处理不完备信息的变压器故障诊断模型。 |
2002 | 黄 沛 李 剑 | 基于粗糙集的保险风险规则挖掘模型 | 同样将粗糙集运用于风险控制,黄沛等借助基于粗糙集理论的数据挖掘工具挖掘出隐含在保险业的风险规则;卢新元通过基于粗糙集的风险决策规则,对风险进行有效的识别、预测和控制;张好峰则从风险投资机构的角度出发,发展和完善了风险投资综合评价方法。 |
2005 | 卢新元 | 基于粗糙集的 IT 项目风险决策规则挖掘研究 | |
张好峰 | 基于粗糙集的风险投资项目评价 | ||
2006 | 李延来 | 基于粗糙集的产品规划质量屋构建研究 | 通过基于粗糙集构建产品规划质量屋,提高其构建的精度和准确度,降低其构建成本,缩短其构建时间。 |
2009 | 杨海龙 孙健国 | 粒子群优化的粗糙集-神经网络在航空发动机故障诊断中的应用 | 同样基于粗糙集-神经网络,杨海龙等提出了发动机智能故障诊断方法降低了神经网络结构的复杂性,减少了网络训练时间,提高了诊断精度。而罗彬等针对电信客户流失问题的复杂性,提出了一种新的客户流失预测模型。 |
2011 | 罗 彬 邵培基 罗尽尧 等 | 基于粗糙集理论-神经网络-蜂群算法集成的客户流失研究 | |
2010 | 栗 然 张烈勇 顾雪平 等 | 采用粗糙集联合规则挖掘算法的分布式电网故障诊断 | 对大电网进行分割,使得每个局部电网决策表的规模大为减小,同时联合规则挖掘算法显著降低规则提取的复杂度,解决了粗糙集理论在大电网故障诊断中遇到的瓶颈问题。 |
1992 | Teghem J et a1 | Use of rough set method to draw premonitory factors for earthquakes by emphasizing gas geochemistry | 将粗糙集理论运用于自然科学方面的研究国内外都有很多的成果,譬如Teghem J等研究了地震前兆的因素,分析了气象数据与地震的关系。 陈丽燕基于集对分析理论在水文水资源中的应用,将集对分析将同异反联系数推广到四元联系数、五元联系数,进而推广到多元联系数,并将五元联系数应用于湖泊富营养化程度评价、水质评价以及土壤环境质量评价中,取得了良好的效果。 高爽等提出一种基于粗糙集理论的中长期风速预测方法,提高预测精准度。 邓艳以测井曲线和地震属性为基础,将粗糙集理论与支持向量机方法相结合,通过优选预测参数与建立预测模型,为储层参数预测研究探索一种新的方法。 而叶回春提出了利用粗糙集相关理论评价土地肥力的方法。 |
2007 | 陈丽燕 | 集对分析和粗糙集理论在水文水资源中的应用研究 | |
2012 | 高 爽 冬 雷 高 阳 等 | 基于粗糙集理论的中长期风速预测 | |
2013 | 邓 燕 | 基于粗糙集-支持向量机的油气储层参数预测方法研究 | |
2014 | 叶回春 张世文 黄元仿 等 | 粗糙集理论在土壤肥力评价指标权重确定中的应用 |
当然,以上只是列出了粗糙集理论应用的一小部分成果,但是从中我们不难看出,该理论应用面广泛,并且具有广阔的发展前景,从发表文献的数量,我们也可以看出粗糙集理论发展的趋势,近十年中国知网上与粗糙集有关的文献数量如下图所示:
图2-1 文献数量变化趋势统计图
同时,我们也可以看出,粗糙集理论运用于个性化推荐数量上还比较少,内容上来看,还存在一定的可以改进的地方,这也从另一个角度说明了本课题是具有现实意义的。
主要参考文献:
[1] 孔芝.粗糙集理论若干问题的研究与应用[D].东北大学,2010:11.
[2] 百度百科.概率论.[2014-7-23].http://baike.baidu.com/view/45337.htm.
[3] 百度百科.模糊数学.[2014-7-23].http://baike.baidu.com/view/24364.htm.
[4] 郑桂琳.基于变精度容差关系的扩展粗糙集及其在数据挖掘中的应用研究[D].中南大学,2007:2-3.
[5] 高阳,钟波.基于(α,τ)限制相似关系的变精度粗糙集模型[J].系统工程与电子技术,2010,35(7):1639.
[6] 徐敏.粗糙集理论的研究及其在电力业务数据挖掘中的应用[D].电子科技大学,2010:2-3.
[7] 王学恩,韩崇昭,韩德强等.粗糙集研究综述[J].控制工程,2013,1(20):1-4.
[8] 吕果,李法运.基于改进协同过滤的移动个性化推荐服务研究[J].情报探索,2014,2:101.
[9] 安悦,李兵,杨瑞泰等.基于内容的热门微话题个性化推荐研究[J].情报杂志,2014,2(33):155-156.
[10] Marzena Kryszkiewicz.Rough sets approach to incomplete information system[J]. Information Science,1998,112:39-49.
[11] 刘富春.基于修正容差关系的扩充粗糙集模型[J].计算机工程,2005,24:145-147.
[12] 王国胤.Rough集理论在不完备信息系统中的扩充[J].计算机研究与发展,2002,10:1238-1243.
[13] Stefanowski J,Tsoukias A.On the Extension of Rough Sets Under Incomplete Information. S Zhong, A Skowron, S Ohsuga. In:Proc. Of the 7 Intl Workshop on New Directions in Rough Sets, Data Mining , and Granular Soft Computing. Berlin: Springer-Verlag,1999:73-81.
[14] 中国人工智能学会通讯.中国人工智能学会粗糙集与软计算专业委员会学术活动.[2014-10-21].http://caai.cn/contents/52/152.html.
4. 研究方案
四、方案
本论文主要工作为旨在通过对下列问题进行探讨,为基于变精度容差关系扩展粗糙集的个性化推荐方法应用提供理论依据和实施建议:
1)粗糙集发展历史、现状及趋势;
5. 工作计划
五、工作计划
2022-2022-2学期
第12-15周 学生参加社会实践,完成课题调研,补充资料,完善开题报告,思考论文并
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。