摘要:在分子系统学研究中,常常需要测定大量扩增子的序列,以获得分子数据来解析系统发育关系。传统的扩增子测序一般采用Sanger法,但当分子标记和/或样本数量较大时,Sanger法测序成本非常高。本方法是一种基于Illumina HiSeq测序平台,同时测定大量分子标记扩增子的高通量测序方法。实验的主要流程如下:首先将同一样本的不同扩增子进行混合,利用超声波仪器或片段化酶进行打断处理,随后在片段两端连接样本特异性标签,最后将不同样本的标记片段混合并进行文库构建及高通量测序。与Sanger扩增子测序方法相比,本方法的测序成本非常低,测定一个扩增子的成本可以下降至0.1-0.2元。此外,本方法的实验操作流程相较于Sanger测序也更加简便,无需对每个PCR产物进行单独纯化,且对于无可见条带或有非特异性扩增条带的PCR产物可直接混合建库,这大大降低了实验劳动强度。在数据分析方面,本方法提供了简单易学的数据分析流程,且对计算资源要求较低,可概括为三步: (1) 根据样本特异标签对数据进行分选; (2) 使用拼接软件对样本数据进行组装; (3) 使用BLAST比对策略鉴定目标分子标记的序列。综上所述,本方法的实验操作和数据分析流程较为简单,是一种易于掌握的高通量数据技术,适用于大规模测定分子标记扩增子序列的系统发育学研究。 研究背景:近年来,多基因分子标记分析被广泛用于物种间系统发育关系重建。传统方法是利用PCR技术扩增目标分子标记,然后进行Sanger测序,最后通过人工逐一检查测序结果获得最终序列。对于研究物种少 (小于50) 和分子标记数目少 (小于10) 的研究,该方法简单可行,实验劳动强度较小,普通的分子系统学实验室均可开展相关工作。目前,针对不同生物类群的通用基因分子标记工具箱正不断被开发,如102个脊椎动物通用核基因标记 (Shen et al. 2013),96个蛇类通用基因标记集 (Li et al. 2017),95个甲虫通用核基因标记集 (Che et al. 2018),96个鳞翅目通用基因标记集 (Zhang et al. 2019) 等,这为基于多基因分子标记的分子系统学研究提供大量标记资源。然而,当研究物种数目和/或分子标记数目增大时,需要处理成千上万条扩增子,若依然选择Sanger测序法,无论是实验劳动强度还是测序成本都难以承受。 随着高通量测序技术的快速发展,高通量测序的成本越来越低,数据分析流程也越来越完善,分子系统学家逐渐开始使用454,Ion Torrent等高通量测序平台对扩增子进行大规模测序。然而这些测序平台的测序通量比较低,测序成本仍然昂贵。为了进一步降低大规模测定扩增子的测序成本,本方法基于一种测序通量更高,测序成本更低的短读长Illumina HiSeq测序平台,提出了一种混合分子标记扩增子高通量测序方法。与Sanger扩增子测序相比,本方法在测序成本和实验劳动强度上有十分明显的优势。例如,一个50 (样本数目) x 100 (分子标记数目) 的分子系统学项目,需要测定5000个扩增子序列,按Sanger双端测序,每个测序反应13元计,测序总费用高达13万元。如果采用Illumina HiSeq测序平台测序,仅需要5-10 Gb测序数据便能满足研究需求,建库测序总费用不超过1000元,每个样本测定一种扩增子的成本不足0.2元,测序成本非常低廉。同时,本方法的实验操作十分简便,不需要像Sanger扩增子测序那样对每个扩增子进行单独纯化,而是直接将同一样本的不同扩增子进行混合, 实验劳动强度小。对于无明显条带或有非特异性扩增的扩增子可直接混合建库,只要测序通量高,也可通过生物信息学分析获得相应序列,然而Sanger扩增子测序却无法做到这一点。此外,本方法还提供了一套完整的数据分析流程,与处理转录组数据较为类似,简单易学,且对计算资源较低。值得一提的是,最终获得的扩增子序列数据也易于与NCBI等公共数据库中的数据相整合。 本文提供了详细的混合分子标记扩增子高通量测序方案的实验流程和数据分析流程,有助于传统Sanger测序分子系统学实验室在短时间内掌握。该方案的有效性已在有颌类脊椎动物的分子系统学研究中得以验证,详细结果请参阅Feng et al. 2015.
关键词: 扩增子测序, 高通量测序, 分子标记, 系统发育学, 样本特异性标签
材料与试剂
仪器设备
软件
实验步骤
读者首先需要对所选的分子标记进行PCR扩增,获得大量的扩增子 (目标扩增子的选择可参考研究背景中列出的适用于不同生物类群的分子标记工具箱),随后再按照: 扩增子混合,DNA片段化,样本特异性标签连接,多样本混合和片段筛选,文库构建和高通量测序共五个步骤,实现混合分子标记扩增子的高通量测序,其工作流程图如图1所示。
图1. 混合PCR产物高通量测序方案的实验流程图
一、 对所选分子标记进行PCR扩增 在大规模扩增分子标记之前,建议开展一个预实验,随机挑选2-3个样本和5-10种分子标记分别进行PCR扩增,目的是确保PCR反应体系,引物和DNA模板可正常使用。
二、 扩增子混合 (参考图1步骤1) 为了简化实验操作流程,降低实验劳动强度,本方法并没有对每个PCR产物进行单独纯化,而是直接等体积混合同一物种不同的PCR产物,对于无可见条带或有非特异性扩增条带的PCR产物也同等对待。
三、 DNA片段化 (参考图1步骤2) 该步骤的目的是为了获得符合Illumina测序平台的要求的,具有一定长度范围的DNA片段。以HiSeq X-ten测序平台为例,该平台期望的插入片段大小在200-400 bp之间,所以片段化后的DNA片段最好集中在这个区域。片段化的方法有超声处理,酶处理等,对于新手而言,推荐使用后者,因为该过程不依赖特殊仪器 (超声波DNA打断仪),且入手简单。本方法以NEBNext dsDNA Fragmentase为例,介绍片段化方法,其他注意事项可参阅产品说明书。https://international.neb.com/protocols/0001/01/01/digestion-with-nebnext-dsdna-fragmentase-m0348.
五、 多样本混合和片段筛选 (参考图1步骤4) 连接反应结束后,将具有不同特异标签的连接产物进行混合,并在2%的琼脂糖凝胶中割胶回收200-400 bp的DNA片段。
六、 文库构建和高通量测序 (参考图1步骤5) 使用高通量文库构建试剂盒 (如: NEBNext Ultra DNA Library Prep Kit) 对割胶产物进行文库构建 (具体方法参阅产品说明书https://international.neb.com/protocols/0001/01/01/digestion-with-nebnext-dsdna-fragmentase-m0348),并进行高通量测序。
数据分析
数据分析的主要目的是将高通量原始数据处理成可直接进行系统发育分析的数据,其流程包括: 数据分选与组装,目标基因序列的鉴定与提取,序列比对,数据质量控制和系统发育分析 (如图5)。本方法提供了与上述分析流程相关的Python脚本,供读者参考使用,下载地址为https://datadryad.org/stash/dataset/doi:10.5061/dryad.n21cr. 一、 数据分选与组装
三、 序列比对 对于进化速度较慢的基因标记,如核蛋白编码基因,推荐使用PRANK,MUSCLE等软件进行序列比对,对于进化速度较快的基因标记,比如含有内含子序列的EPIC (Exon-primed intron-crossing) 分子标记,推荐使用SATé进行序列比对。
四、 数据质量控制 为了进一步提高数据质量,确保鉴定的直系同源基因数据集的准确性,本方法对每个alignment 构建单基因树,通过分析基因树中各分枝的长度和判断基因树的拓扑结构,将枝长异常的序列,旁系同源序列以及污染序列从数据集中剔除(如图6)。
溶液配方
致谢
实验方案摘自发表的文章Feng, Y. J., Liu, Q. F., Chen, M. Y., Liang, D. and Zhang, P. (2016). Parallel tagged amplicon sequencing of relatively long PCR products using the Illumina HiSeq platform and transcriptome assembly. Molecular Ecology Resources 16(1): 91-102. http://doi:10.1111/1755-0998.12429.
竞争性利益声明
作者声明没有利益冲突
参考文献
If you have any questions/comments about this protocol, you are highly recommended to post here. We will invite the authors of this protocol as well as some of its users to address your questions/comments. To make it easier for them to help you, you are encouraged to post your data including images for the troubleshooting.