1. 研究目的与意义、国内外研究现状(文献综述)
自20世纪70年代以来,DNA测序技术迅猛发展,不断向着低成本、高通量、自动化的方向迈进。1977年,Sanger发明了链终止测序法;同年,Maxam和Gilbert提出化学降解法测定DNA序列的方法标志着第一代测序技术的诞生。虽然第一代测序技术因其准确性高而沿用至今,但由于第一代测序技术自动化程度低,需耗费人力大,速度慢,通量低等缺点逐渐无法满足基因组学的快速发展。以高通量为显著特征的第二代测序技术随之崛起,相比第一代测序技术,其成本更低(毛亚文等,2018)。
第二代测序技术成本较低且能进行大规模的并行测序反应,比第一代在聚丙烯酰胺凝胶排列上的模板数多出数十万个,并行化程度大大提高。第二代测序技术最显著的特征是高通量,一次能对几十万到几百万条DNA分子进行序列测序,使得对一个物种的转录组测序或基因组深度测序变得方便易行(解增言等,2010)。
2. 研究的基本内容和问题
(1)由于三代测序的错误率较高而导致的跳虫基因组数据库不够完善;(2)基因组测序用的跳虫样本准备较为困难;(3)缺少光学图谱,难以组装完整基因组。
3. 研究的方法与方案
研究材料:本课题使用白符原始测序数据下载NCBI数据库,包括:PacBio(SRR2952806),Illumina(SRR2743547)。
(1)基因组评估
Illumina原始数据由BBtoolsv38.22(Bushnell,2014)套件工具进行质控,即去除重复序列(Clumpify)和低质量区域(BBduk)。基因组大小、杂合度和重复序列比例等评估由GenomeScope v1.0.0(Vurture et al., 2017)估算,所需的k-mer频数分布使用khist.sh(BBtools组件之一)产生,k-mer值设置为17,k-mer最大深度范围设置为1000。
4. 研究创新点
近年来,随着生物信息学的不断发展,诞生了许多新的软件,算法也在不断地优化。第三代测序数据组装基因在新型组装工具的帮助下有了较大的提升,如Flye(Mikhailet al., 2019)、quickmerge(Chakrabortyet al., 2016),组装的连续性更优。
此次研究对建库策略进行了新的调整,对组装算法的优化也在很大程度上改善了组装结果,从而能获得高质量的基因组结果。5. 研究计划与进展
2019.6-2019.7
学习基因组装的相关知识,为后续分析做准备。
2019.7-2019.9
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。