摘要:AFLP基因组捕获技术是在扩增性片段长度多态性 (Amplified Fragment Length Polymorphism,AFLP) 的实验基础上,将AFLP片段制备成捕获探针,从目标样本的基因组文库中富集特定区域,并进行高通量测序的一种技术。该技术能够在属内种间水平上获取大量的匿名基因序列,或在种下水平上获取大量的SNP位点,以用于系统发育关系重建,群体遗传结构等分析。该技术的主要流程包括: (1) AFLP探针制备;(2)基因组文库构建;(3) 杂交捕获及高通量测序。后续的数据分析流程简单易学,且对计算资源的要求较低,主要为序列组装和提取目标直系同源序列或SNP位点。该技术的优势是: (1) 整个过程不依赖任何参考基因组资源,适合非模式生物的研究;(2) 自制捕获探针,省时,大大降低实验成本;(3) 对目标样本的DNA质量要求较低,高度降解的DNA样本也可被用于分析。
关键词: 目标序列捕获, 自制探针, 系统发育学, 群体遗传学
材料与试剂
仪器设备
软件
实验步骤
AFLP基因组捕获技术的实验流程,可分为三个步骤: AFLP探针制备,基因组文库构建以及杂交捕获,其工作流程如图1所示。 图1. AFLP基因组捕获技术的工作流程图
一、 AFLP探针制备 (总耗时: 约7 h) 读者需要挑选一个与研究类群相关的探针制备物种,并将它的基因组DNA作为起始模板,按照以下四个步骤完成AFLP探针的制备 (见图1):(1) 限制性内切酶消化;(2) 接头连接和片段筛选;(3) 预扩增;(4) 选择性扩增。其中,限制性内切酶消化和选择性扩增是影响AFLP探针制备结果的关键步骤,因为它们决定了AFLP探针的长度范围和数量等。需要指出的是,探针制备物种的基因组DNA质量对AFLP探针制备的实验结果至关重要。在利用限制性内切酶消化基因组DNA的过程中,如果基因组DNA的质量较差 (如DNA无主带或DNA有主带,但同时存在明显的弥散条带),大量的限制性酶切识别位点会因DNA降解而丢失,这将导致酶切片段总数量的减少,从而导致AFLP探针数量的减少。因此,建议读者优先挑选基因组DNA质量较好的样本作为探针制备物种,选择标准为:在基因组DNA的电泳检测结果中,基因组DNA条带的长度大于20 Kb,且无明显的弥散条带。
二、 基因组文库构建 (总耗时:约5 h) 本方法对高通量测序平台的测序读长没有严格要求,所以它适用于所有的二代测序平台,如Illumina,Ion Torrent,BGISEQ等。读者可根据自身对测序平台的熟悉程度,购买与测序平台相匹配的基因组文库构建试剂盒进行文库构建。本方法以NEBNext Ultra DNA Library Prep Kit for Illumina试剂盒为例,简要地介绍了Illumina基因组文库构建的方法。为了保证基因组文库具有较高的质量和良好的多样性,建议尽量选择DNA质量好 (> 4 Kb) 的样本用于文库构建,DNA初始投入量在200 ng-1 μg,1 μg最优。
三、 杂交捕获 (总耗时:约41 h) 在系统发育研究中,捕获样本往往与探针制备样本不同。为了从捕获样本的基因组文库中杂交捕获到与探针同源的基因组区域,特别是从亲缘关系较远的样本中,通常需要根据捕获样本与探针制备样本之间的序列相似度,对杂交体系中的盐离子浓度,杂交反应温度等条件进行优化和调整。在本实验方法中,杂交反应体系中盐离子的终浓度为5X,且杂交反应的温度呈梯度下降 (Touch-down),即杂交温度从65 °C起始,每隔一段时间下降3°C,最终下降至50°C。在此条件下,与探针的核酸序列相似度在65 %以上的单链DNA文库将被捕获。这种反应条件适合于大多数的系统发育研究。
结果与分析
AFLP基因组捕获技术可以产生匿名基因序列数据和SNP数据。其中,匿名基因序列数据可以用于属内种间水平上的系统发育分析,而SNP数据可以用于种群水平上的系统地理学分析。读者需要根据自身的研究需求进行数据的提取。目前,SNP数据提取与分析的流程已在现有文献中被详细描述 (McKenna et al. 2010; Depristo et al. 2011; Van der Auwera et al. 2013),读者可参考上述文献对SNP数据进行提取与分析。本文将重点介绍从AFLP捕获数据中获取匿名基因序列数据的生物信息学分析流程,其主要流程可概括为: 数据分选与组装,直系同源序列的鉴定与提取,序列比对,数据质量控制以及系统发育分析。 一、 数据分选与组装
二、 直系同源序列的鉴定与提取 使用同一套AFLP探针从不同样本的基因组文库中进行序列捕获时,不同样本间被捕获到的序列具有同源性。所以,本方法直接采取双向BLASTN策略从所有样本的contigs中鉴定直系同源序列组 (orthologous groups,OGs) (如图3中的步骤一)。做法是:首先从所有样本拼接的contigs中选择拼接总长度最长的contigs作为参考序列,然后将其他样本的contigs分别与参考序列进行双向BLASTN。若1号样本的A序列在参考序列的第一个BLAST Hit是B序列,反过来参考序列的B序列在1号样本中的第一个BLAST Hit 还是A序列,则A序列与B序列为1号样本与参考序列的直系同源序列。考虑到在一个OG中,样本间contigs的长度有所差异,这使它们很难进行序列比对。为了解决这个问题,本方法提出了一种修剪OG的策略,即在原始OG中寻找一个最佳区域,以降低比对的难度 (如图3中的步骤二)。上述所有过程可通过本实验室开发的“SearchOGs.py”脚本实现 (下载地址:https://figshare.com/s/5a4eee383e2dc9afba5)。 $ python SearchOG.py -c ./contigDir -r ./contigDir/reference.fasta -e 1E-10 -L 200 -S 0.7 -B 2 -C 0.5 -N 2 -o outdir 注:“-c”用于提供包含所有样本contigs文件在内的文件夹路径,“-r”用于提供参考序列文件的路径,“-e”用于设置BLAST比对的E-value阈值, “-L”用于设置BLAST Hit长度阈值,“-S”用于设置BLAST Hit的序列相似度阈值,“-B”用于设置最佳比对区域中上下限包含样本数目的阈值,“-C”用于设置最佳比对区域中修剪后的contigs长度与参考序列长度比例的阈值,“-N”用于设置直系同源序列组中所包含样本数目的阈值,“-o”用于指定输出文件夹的路径和名称。运行环境要求和参数详解请参阅该脚本的说明文件。 图3. 鉴定直系同源序列组的流程图 三、 序列比对 常用的多序列比对的软件有Muscle (http://www.drive5.com/muscle),MAFFT (https://mafft.cbrc.jp/alignment/software/),Bali-Phy (http://www.bali-phy.org/),SATé (http://phylo.bio.ku.edu/software/sate/),PASTA (https://github.com/smirarab/pasta)等。考虑到大多数被AFLP探针捕获的匿名基因组序列都是快速进化的非编码序列,因此,为了提高序列比对的准确性,推荐使用针对高变序列比对专门设计的程序如SATé和PASTA。 例如,使用PASTA处理一个OG文件: $ python run_pasta.py –i OG1.fasta 注:PASTA具体使用方法请参阅 https://github.com/smirarab/pasta/blob/master/pasta-doc/pasta-tutorial.md#step-2-inspecting-the-output-of-pasta 四、 数据质量控制 为了进一步提高数据质量,确保所鉴定的直系同源基因数据集的准确性,本方法对每个alignment 构建单基因树。通过分析基因树中各分枝的长度和判断基因树的拓扑结构,将枝长异常的序列,旁系同源序列以及污染序列从数据集中剔除 (如图4)。以臭蛙属为例,本方法能够从11个臭蛙属物种和2个外类群物种中鉴定出511个OGs,共4142条序列,碱基缺失率为35.6% (包含外类群物种在内)。经过数据质量控制之后,有11条不合格的序列被剔除,碱基缺失率变为35.9%。虽然数据集的碱基缺失率有所增加,但剔除枝长异常的序列,旁系同源序列以及污染序列将大大提高最终数据集的可靠性。 图4. 基于单基因树构建的方法去除长枝,旁系同源序列以及污染序列的示意图 (Kapli et al. 2020)。 以处理一个OG为例:
溶液配方
致谢
实验方案摘自发表的文章Jia-Xuan Li, Zhao-Chi Zeng, Ying-Yong Wang, Dan Liang, Peng Zhang*. (2019). Sequence capture using AFLP-generated baits: A cost effective method for high-throughput phylogenetic and phylogeographic analysis. Ecology and Evolution, 9(10), 5925-5937.
竞争性利益声明
作者声明没有利益冲突
参考文献
If you have any questions/comments about this protocol, you are highly recommended to post here. We will invite the authors of this protocol as well as some of its users to address your questions/comments. To make it easier for them to help you, you are encouraged to post your data including images for the troubleshooting.