1. 研究目的与意义
课题内容在使用Spark集群对古现代医学文献中的疫病的中医药方剂数据进行清洗整理,提取所有的方剂数据,找出核心药物的基础上,方剂数据中核心药物和地区、朝代、症状、病因等影响因素的显著性分析,找出不同影响因素和核心药物之间的相关性。
课题意义通过该课题的设计与实现,熟悉中医药数据的处理和分析流程,掌握逻辑斯蒂回归算法的大致原理,进一步提高学生对工具、语言、算法学习及应用能力,提高学生的逻辑思维的水平。
现代医学界对古代疫病的研究工作大致可分为以下领域:关于中国古代疫病流行状况的资料汇编、对中国古代疫病史的研究、对某一朝代或某一历史阶段疾病流行状况的研究、中国古代单项疫病的研究、中国古代医学典籍中疫病防治思想和措施的研究等等。
2. 文献综述
一、引言随着互联网为代表的信息技术深度发展,其背后由于历史积累产生了TB、PB甚至EB级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。
如今业界大数据处理的主流平台非Hadoop和Spark莫属,而Spark又是后起之秀,对于Hadoop而言有过之而无不及。
现在有越来越多的研究人员将数据挖掘的方法运用到中药方剂的挖掘中。
3. 设计方案和技术路线
操作系统:Windows 10、Ubuntu 14.0IDE环境:Python v2.7.14 (以上) PyCharm 首先对原始的古代疫病数据,先持久化到非关系型数据库MongoDB中,进行初步的数据清洗整理,如把方剂中同一味药的不同别名进行统一命名、各味药的计量单位统一、数据缺失过多的数据项予以舍弃等。
然后找相似疫病的核心药物。
具体算法有两种,通过实验比较优劣择其一。
4. 工作计划
2月17日2月23 日:资料收集 2月24日3月 2 日:数据入库 3月 3 日3月 9 日:数据清洗 3月 10日3月16日:找核心药物 3月17日3月30 日:各影响因素和核 心药物之间的显著性分析 3月31日4月6日:得出结论 4月 7 日4月20日:论文撰写
5. 难点与创新点
对于古代疫病的研究,特别是对古代疫病核心药物与各个影响因素之间的显著性分析在目前是比较少的,通过这种对比分析可以得出某些疫病的发生特点以及规律,可供现代医学学者参考借鉴。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。