1. 研究目的与意义
将属性相似的事物看作一类是一个自然而复杂的心理活动,当我们首次面对它们时总想知道它的门纲类别,从呀呀学语的小孩面对各种新奇事物到证券市场上的金融分析师所面对的各种金融数据;从达尔文对生物进化的研究到现代的天文学研究都存在或需要聚类的分析过程。从人们分析和理解现实世界的活动来说,它的重要地位无可厚非也不容取代。
聚类是一个古老而平常的活动,它事实上存在于所有可以通过心理活动认知世界的生物中。聚类为科学研究所重视可以追溯到上个世纪或更早些,因为从那时起,聚类才成为可以建立在统计学基础之上的一门学科,思维上的这一心理活动才通过科学的方法加以描述和模拟。遗憾的是在计算机出现之前,聚类仅为统计学所讨论,而且分析的数据规模很小。在面对大量的数据对象时,人们便无能为力了,每个这样的数据对象通常有几百个甚至上千个属性(或特征),传统的聚类方法是建立在数据分布的密度估计之上的,对于高维稀疏的数据集,用这样的方法估计密度时准确性较差。计算机的出现对于分析大量高维数据带来了解决办法,但同时,由于计算机应用从数值计算领域向非数值计算领域的拓展,产生了海量的种类繁多的数据。运用计算机来分析和处理这些数据又成为了一种新的挑战。
当前依据三维结构相似性进行聚类是指在三维空间中,以两组点集合的三维相似性为距离,进行相似性聚类,期待结构相近的聚成类,这在材料、生物、工程中都有广泛的应用。其中在生物领域的典型应用是蛋白质三维结构聚类,这是在蛋白质三维结构预测,功能和交互预测中的一个重要步骤[1,2,3]。在蛋白质结构预测方法中,蛋白质结构聚类的任务是基于三维结构的相似聚类算法,从自由建模或模板建模生成的大规模的候选集中选择最好的近天然构象。RMSD和TM-score是当前衡量三维结构候选对象相识度的两个通用的标准。
2. 研究内容和预期目标
步骤一:前期准备
(1)SPICKER算法的获取
SPICKER:http://zhanglab.ccmb.med.umich.edu/SPICKER/
3. 研究的方法与步骤
(1) 编程语言选择:本课题主要采用java编程,基于java的io对实验的文件进行变换,将一种格式的文件变换成另外一种文件格式。
(2) 课题算法:TMscore,一种计算Native与Model蛋白质的相识性的算法。
(3) 项目过程组织: 本课题采用软件工程基本模型,按照软件定义、软件开发、软件测试这一过程进行开发。
4. 参考文献
[1] De-Shuang H, Lei Z, Kyungsook H, et al. Prediction ofprotein-protein interactions based on protein-protein correlation using leastsquares regression.[J]. Current Protein Peptide Science, 2014,15(6):553-60.,
[2] Wu H, Lü Q, Quan L, et al. patGPCR: a multitemplate approachfor improving 3D structure prediction of transmembrane helices ofG-protein-coupled receptors.[J]. Computational Mathematical Methods inMedicine, 2013, 2013(1):151-164.,
[3] Yang J, Yan R, Roy A, et al. The I-TASSER suite: Proteinstructure and function prediction[J]. Nature Methods, 2014, 12(1):7-8.
5. 计划与进度安排
(1) 2022年2月1日 ~ 2022年3月1日: 查阅资料,撰写开题报告;
(2) 2022年3月2日 ~ 2022年3月15日: 需求分析,熟悉开发工具;
(3) 2022年3月16日 ~ 2022年3月25日:概要设计;
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。