摘要:线粒体DNA因具独有的母系遗传特性,使其在进化生物学等研究领域占有不可替代的一席之地。相比于单个或少数几个线粒体片段,线粒体基因组具有信息量相对较大、不易产生偏误等特点,因此,在解决相关科学问题上更具优势。先前,利用Sanger测序技术获取线粒体基因组受限于包括人工、近缘参考等诸多条件,并不便捷。近年来,伴随着高通量测序技术的不断发展,测序价格不断降低,以基因组重测序为代表的二代测序技术产生的数据可以为直接从中拼接线粒体基因组提供数据支撑。本文通过介绍以MEANGS为主的几款软件/流程,并提供对应的使用方法,旨在为广大研究人员及学生在实际科研工作中提供有效帮助。
关键词: 线粒体基因组, 组装方法, 二代测序数据, 软件
一、概述
线粒体DNA作为一种通用标记,具有母系遗传、进化速率较快等特点,因此广泛应用于系统发育研究、生物多样性研究、群体遗传学研究及其他演化生物学相关研究领域(Avise, 1995 and 1998; Avise et al., 1987; Hajibabaei et al., 2007; Du et al., 2019; Zhou et al., 2013; Gillett et al., 2014; Crampton-Platt et al., 2016)。相比于单个或少数几个线粒体片段,线粒体基因组承载了更多的遗传信息,这不但可以对物种的演化关系和种群动态历史进行更好的解析(Edwards et al., 2010; Lindqvist et al., 2010; Rogaev et al., 2006),同时也降低了某些特定线粒体片段由于趋同演化等原因带来的偏差(比如,系统发生关系信号偏误)(Castoe et al., 2008 and 2010)。因此,相对于线粒体片段来说,线粒体基因组是一种更具优势的标记。同时,除了以上提及的科学研究领域,线粒体基因组也可以应用于诸如,刑侦工作,食品生产相关领域以及进出口贸易检疫项目等。
早些年,想要获得一个完整的线粒体基因组,一般需要使用“引物步移PCR”的方法即先利用标准Sanger测序技术获取一定长度的线粒体片段后拼接组装成一个完整的线粒体基因组(片段之间相互重叠且成环)。但是,这样的方法不但非常耗时、成本不菲且需要一个高质量的线粒体参考基因组(近缘物种)作为引物设计的模板。近些年,随着高通量测序技术的不断提升,测序成本逐渐降低,这使得越来越多的来自于不同物种、尤其是非模式物种的高质量基因组数据呈指数增长。其中,二代测序技术产生的数据为利用生物信息学方法直接从数据中提取并组装线粒体基因组提供了重要的数据支撑。二代测序,又叫做高通量测序(High-throughput sequencing),是基于PCR以及基因芯片的DNA测序技术,它具有通量高、读长短等特点。动物全基因组二代测序数据,通常同时包含线粒体及核基因序列。由于单个细胞(泛指体细胞)中,线粒体的数量通常为细胞核数量的10到100倍(Robin and Wong, 1988),因此,即便在相对较低的测序深度(5-10x)的二代测序数据中,线粒体基因组的完整度仍有较大可能得到保证。结合先前提到的线粒体基因组本身具有的数据特性(母系遗传且相对于核DNA独立演化),在应用二代测序数据的相关研究中,通过分离线粒体基因组进行平行分析,可为研究提供多维度证据,这在群体遗传学中体现尤为明显。
截止目前,围绕从基因组二代测序数据中提取线粒体序列已经出现了非常多的流程/软件,有些只提取特定目标基因片段,有些则是预期提取完整的线粒体基因组。这些流程(软件)可根据使用算法、策略等的不同来区分。从策略上来看,如NOVOPlasty需要使用人工提供种子序列并以种子序列为起始进行延伸组装,而Norgal则基于基因组二代测序数据中线粒体DNA量从理论上高于核DNA这一特点,通过深度阈值划分来提前过滤得到线粒体DNA数据。总的来说,所有相关类型软件都可以根据是否由人工提供种子序列来区分,本文也根据流程/软件是否需要由人工提供种子序列来对相关软件进行区分并加以介绍。在本文中,作者将以基于Illumina平台产生的测序数据为例,介绍从基因组二代测序数据中提取并组装线粒体基因组的相关方法,而不介绍那些只提取目标片段的流程。最后由于方法众多,本文仅介绍了linux平台下运行的几种软件,包括一款由作者所在团队开发的软件MEANGS(参考文献)。关于运行程序所需硬件条件,以实际操作经验来看,一台含有32个2.1GH内核英特尔至强CPU以及502.38Gb内存的服务器即可满足几乎所有测试。
二、从基因组二代测序数据提取线粒体的方法(流程/软件)
-
不需要手动提供种子序列的软件
-
需要手动提供种子序列的软件
以下涉及的方法,通常要对提取线粒体基因组物种有一定的了解,需要通过获取其近缘物种的线粒体基因片段或线粒体基因组来引导软件进行目标物种线粒体基因组的组装。
三、总结
目前,利用基因组二代测序数据提取并组装线粒体基因组的方法仍在不断更新,不同的方法存在其自身优势也具有局限性。不同的数据类型、数据质量、测序深度及物种差异对于不同的方法都会造成影响。MEANGS基于创新性策略实现从动物基因组二代测序数据中提取并组装线粒体基因组的目的,相比于其他同类型软件,MEANGS在综合评价上存在明显优势。面对不断累积的数据,准确且高效地获取线粒体基因组是编写相关软件的目标。本文通过介绍以MEANGS为代表的线粒体基因组组装软件/流程,希望可以为广大研究人员及学生提供有效的帮助。
致谢
本文作者感谢成都生物研究所高级工程师蒋海波博士和桂承波硕士对MEANGS组装模块编写提供的重要支持。本研究得到中国科学院"西部之光"交叉团队项目(2018XBZG_JCTD_001),中国科学院战略生物资源能力建设项目 (KFJ-BRP-017-14),四川省杰出青年科技人才(2021JDJQ0002)的支持。
参考文献
-
Avise, J. C. (1995). Molecular Markers, Natural History and Evolution. Sinauer Associates. ISBN: 9781461523819.
-
Avise, J. C. (1998). The history and purview of phylogeography: a personal reflection. Molecular Ecology 7(4): 371-379.
-
Avise, J. C., Arnold, J., Ball, R. M., Bermingham, E., Lamb, T., Neigel, J. E., Reeb, C. A. and Saunders, N. C. (1987). INTRASPECIFIC PHYLOGEOGRAPHY: The Mitochondrial DNA Bridge Between Population Genetics and Systematics. Annu Rev Ecol Evol S 18(1): 489-522.
-
Castoe, T. A., Jiang, Z. J., Gu, W., Wang, Z. O. and Pollock, D. D. (2008). Adaptive evolution and functional redesign of core metabolic proteins in snakes. PLoS One 3(5): e2201.
-
Castoe, T. A., de Koning, A. P., Kim, H. M., Gu, W., Noonan, B. P., Naylor, G., Jiang, Z. J., Parkinson, C. L. and Pollock, D. D. (2009). Evidence for an ancient adaptive episode of convergent molecular evolution. Proc Natl Acad Sci U S A 106(22): 8986-8991.
-
Crampton-Platt, A., Yu, D. W., Zhou, X. and Vogler, A. P. (2016). Mitochondrial metagenomics: letting the genes out of the bottle. Gigascience 5: 15.
-
Du, Z., Hasegawa, H., Cooley, J. R., Simon, C., Yoshimura, J., Cai, W., Sota, T. and Li, H. (2019). Mitochondrial Genomics Reveals Shared Phylogeographic Patterns and Demographic History among Three Periodical Cicada Species Groups. Molecular Biology and Evolution 36(6): 1187-1200.
-
Edwards, C. J., Magee, D. A., Park, S. D., McGettigan, P. A., Lohan, A. J., Murphy, A., Finlay, E. K., Shapiro, B., Chamberlain, A. T., Richards, M. B., Bradley, D. G., Loftus, B. J. and MacHugh, D. E. (2010). A complete mitochondrial genome sequence from a mesolithic wild aurochs (Bos primigenius). PLoS One 5(2): e9255.
-
Gillett, C. P., Crampton-Platt, A., Timmermans, M. J., Jordal, B. H., Emerson, B. C. and Vogler, A. P. (2014). Bulk de novo mitogenome assembly from pooled total DNA elucidates the phylogeny of weevils (Coleoptera: Curculionoidea). Mol Biol Evol 31(8): 2223-2237.
-
Hajibabaei, M., Singer, G. A. C., Hebert, P. D. N. and Hickey, D. A. (2007). DNA barcoding: how it complements taxonomy, molecular phylogenetics and population genetics. Trends in Genetics 23(4): 167-172.
-
Lindqvist, C., Schuster, S. C., Sun, Y., Talbot, S. L., Qi, J., Ratan, A., Tomsho, L. P., Kasson, L., Zeyl, E., Aars, J., Miller, W., Ingolfsson, O., Bachmann, L. and Wiig, O. (2010). Complete mitochondrial genome of a Pleistocene jawbone unveils the origin of polar bear. Proc Natl Acad Sci U S A 107(11): 5053-5057.
-
Robin, E. D. and Wong, R. (1988). Mitochondrial DNA molecules and virtual number of mitochondria per cell in mammalian cells. J Cell Physiol 136(3): 507-513.
-
Rogaev, E. I., Moliaka, Y. K., Malyarchuk, B. A., Kondrashov, F. A., Derenko, M. V., Chumakov, I. and Grigorenko, A. P. (2006). Complete mitochondrial genome and phylogeny of Pleistocene mammoth Mammuthus primigenius. PLoS Biol 4(3): e73.
-
Song, M. H., Yan, C. and Li, J. T. (2022). MEANGS: an efficient seed-free tool for de novo assembling animal mitochondrial genome using whole genome NGS data. Brief Bioinform 23(1).
-
Zhou, X., Li, Y., Liu, S., Yang, Q., Su, X., Zhou, L., Tang, M., Fu, R., Li, J. and Huang, Q. (2013). Ultra-deep sequencing enables high-fidelity recovery of biodiversity for bulk arthropod samples without PCR amplification.Gigascience 2(1): 4.
Please login or register for free to view full text
Login | Register
Copyright: © 2022 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:宋梦洹, 严超超, 李家堂. (2022). 利用动物基因组二代测序数据拼接线粒体基因组的方法.
Bio-101: e1010681. DOI:
10.21769/BioProtoc.1010681.
How to cite: Li, M. X., Wen, S. Y., Xu, M. B., Cui, M. Y. and Liu, L. (2022). Protocols for Extraction and Assembly Mitochondrial Genomes from Animal Whole Genome Next-generation Sequencing (NGS) Data.
Bio-101: e1010681. DOI:
10.21769/BioProtoc.1010681.