Advanced Search
Published: Apr 23, 2021 DOI: 10.21769/BioProtoc.2003388 Views: 8396
研究背景
高通量测序技术 (high-throughput sequencing, HTS) 又称“下一代”测序技术 ("next-generation" sequencing technology, NGS),可以并行的对数百万到数十亿个小片段DNA进行测序。与Sanger测序相比,NGS以其高数据输出、低成本、高时间效益、应用多样等特点改变了基因组的研究 (Behjati and Tarpey, 2013; Kumar et al., 2019)。Illumina为当下主流平台之一,采用“桥式扩增”技术,包括iSeq、MiniSeq、MiSeq、NextSeq、HiSeq和NovaSeq等多种测序系统,在临床医学 (Yohe and Thyagarajan 2017)、法医学 (Yang et al., 2014)、环境科学 (Mahnert et al., 2019)、农业 (Berkman et al., 2012) 等多领域中有着广泛深入的应用。虽然NGS有强大的技术支持和广泛的应用前景,但是限制它发展的主要因素为相对较短的读取长度 (35~700 bp)。当基因组中包含的大量重复序列超过NGS可测量长度便会导致错配和缺口,增加测序错误率 (0.1~15%) (Goodwin et al., 2016; van Dijk et al., 2018)。因此以Pacific Biosciences (PacBio) 公司研发的单分子实时测序技术 (single-molecule real-time sequencing, SMRT) (Eid et al.,2009) 和Oxford Nanopore Technologies (ONT) 公司研发的新型纳米孔测序法 (nanopore sequencing) 为首的第三代测序技术 (third-generation sequencing, TGS) (Jain et al., 2015)应运而生。与前两代测序技术相比,TGS在保证一定准确性的同时可以在更短的时间获取更多的读长,从而更好的进行从头组装,并能够直接检测单倍型,甚至整个染色体定相 (Schadt et al., 2010)。除了基因组测序,TGS还有更广泛的用途,包括转录组的综合表征、甲基化模式的鉴定、表观遗传修饰的检测等(van Dijk et al., 2018)。
随着NGS的发展加上生物信息学的进步,微生物组 (microbiome) 迎来了快速发展时期。微生物组指整个栖息地,包括微生物 (细菌、古菌、低等真核生物、高等真核生物和病毒)、它们的基因组和周围的环境条件(Marchesi and Ravel, 2015)。其中存在于特定环境中的微生物的集合称为微生物群落 (microbiota),主要依赖于对16S rRNA、18S rRNA、内转录间隔区 (internal transcribed spacer,ITS) 基因或其他标记基因和基因组区域的分析,从给定的生物样本中扩增特定片段并进行测序 (Marchesi and Ravel, 2015)。
16S rRNA扩增子测序 (16S rRNA amplicon sequencing) 是微生物群落研究的代表性方法,可以测得样本中的细菌及古菌。16S中的“S”代表非国际单位制下的沉降系数 (sedimentation coefficient)。16S rRNA长度适中,全长约1,540 nt,包括9个高变区 (variable region,V1~V9) 和10个保守区 (conserved region,C1~C10) (图1),存在于所有的细菌中,因在功能结构上具有高度的保守性,常被用于微生物分类研究的标志物(吴悦妮等,2020)。但目前的二代测序技术不能覆盖16S全长,需要对一个或多个高变区进行测序。一般来说,V4区特异性较好,可识别多数序列到属水平。为了增加测序的准确性通常增加V3区域以增加测序长度,故而V3~V4区 (约465bp) 是常用目标区域 (Zhang et al., 2018)。但对于V区的选择没有统一标准,研究者可根据研究目的、生境条件、可变性、保守性、连续性、可比性等因素综合选择合适的V区 (张军毅等,2015)。
图1. 16S rRNA结构示意图
第二代测序会得到海量的原始下机数据,须通过合适的生物信息学软件加以处理分析才可得到具有可读性的数据或图表。如何从海量的数据集中得到有助于科研发现的线索也是当下的一个挑战 (Leonelli, 2019)。对于大数据下的生物信息学分析一方面需要高性能的计算资源,另一方面依赖于高效的分析软件和强大的数据库支持。在过去十年中,扩增子分析的流程框架逐渐完善并不断更新。在众多软件之中,选取适合自身高效的分析软件成为科研中不可或缺的一步。为此本文综述了在16S扩增子分析中常用的软件以及数据库,总结了其优缺点以供初学人员参考选择。
软件和数据库
下一代测序技术(NGS)的进步促进了微生物领域的快速扩展,包括人类微生物组计划 (Human Microbiome Project, HMP) 在内的多项国际合作基因组研究均已完成 (Integrative 2019)。其中16S rRNA基因扩增子测序已成为研究细菌多样性和系统发育的基石,其以低成本、高效率的特点在人类 (Cho and Blaser, 2012)、土壤 (Hartmann et al., 2014)、海洋 (Moran, 2015) 等各方面的研究中发挥了重要作用。但接踵而来的问题是无法从大量的测序数据中直接看出其中存在的现象规律,这就需要一系列计算工具和分析数据的方法对数据进行下游多样性、关联和相关性分析等。
目前对于16S rRNA扩增子分析来说,使用最多的三大分析软件为mothur、QIIME和USEARCH,引用均已过万。以Illumina平台下机数据为例,拿到的原始序列 (raw amplicon) 需要进行双端合并后去除barcode和引物,质控步骤去除低质量序列和嵌合体,得到干净的序列 (clean amplicon) 以进行后续分析,这些步骤均可以使用USEARCH和QIIME完成 (Liu et al., 2020)。之后需要挑选代表性序列以减少测序错误带来的影响 (在Illumina测序中,每个核苷酸的错误率约为0.1%),包括OTUs聚类和ASVs去噪两种方法。之前的方法是通过UPARSE等算法将相似序列 (通常阈值设为97%) 聚类成OTUs,但这种方法漏掉了细微而真实的生物序列变异,因而更推荐使用DADA2、QIIME2-Deblur、USEARCH、UNOISE3等去噪算法挑选代表性序列。其中DADA2和Deblur结果相似,但是Deblur支持并行处理,速度快且稳定,故而Rob Knight教授更推荐使用Deblur算法进行去噪分析 (Knight et al., 2018)。得到代表性序列后,需将这些序列比对到Greengenes、RDP和SILVA等数据库当中获得序列的物种分类信息,该步骤可以通过例如QIIME和mothur等软件进行 (Knight et al., 2018)。一般情况下,16S扩增子分析只能得到菌群分类组成上的信息,但由于PICRUSt、Tax4Fun、FAPROTAX、BugBase等预测软件的出现,使得通过扩增子数据获得物种功能信息变成可能。
微生物组分析方法和标准正在迅速发展,但还没有公认的统一的标准,故而无法确定微生物组学研究的最优法。尽管近期开发出了NIBSC (National Institute for Biological Standards and Control) DNA参考菌群Gut-Mix-RR和Gut-HiLo-RR,以及用于评估生物信息学工具流程偏差的四项措施框架,但还需要多方合作寻求特定的参考试剂确保正确的基准化 (Amos et al., 2020)。以上对16S扩增子分析常用软件和数据库的介绍,以期为初学者了解该领域研究现状及数据分析处理方法提供帮助。
致谢
本项目由“中央高校基本科研业务费专项资金资助(2018ZY21)”(supported by “the Fundamental Research Funds for the Central Universities(2018ZY21)”).
参考文献
Category
Systems Biology > Microbiomics
Do you have any questions about this protocol?
Post your question to gather feedback from the community. We will also invite the authors of this article to respond.
Tips for asking effective questions
+ Description
Write a detailed description. Include all information that will help others answer your question including experimental processes, conditions, and relevant images.
Share
Bluesky
X
Copy link