基于混合PCR产物制备捕获探针的基因组捕获方法

张 圆; 梁 丹; 张 鹏

Home

Request a Protocol

About

A brief version of this protocol appeared in:

Genome Sequence Capture Based on Pooled PCR-generated Baits

张圆

梁丹

张鹏

DOI: 10.21769/BioProtoc.1010599

Published: March 10, 2021

PDF

Original Version
Updated Version

How to cite

Favorites

Q&A

Cited by

引用格式：张 圆, 梁 丹, 张 鹏. (2021). 基于混合PCR产物制备捕获探针的基因组捕获方法. Bio-101: e1010599. DOI: <a href="https://doi.org/10.21769/BioProtoc.1010599">10.21769/BioProtoc.1010599</a>. <a href="/downpdf.aspx?wzid=1010599&action=21&lang=1"> <img src='https://en-cdn.bio-protocol.org/bio101/images/RISLogo_cn.png' class='videopic margin-top margin-bottom' style='width:auto;height:auto;box-shadow:none;cursor: pointer !important;' /> </a> <div class='clear'></div>How to cite: Zhang, Y., Liang, D. and Zhang, P. (2021). Genome Sequence Capture Based on Pooled PCR-generated Baits. Bio-101: e1010599. DOI: <a href="https://doi.org/10.21769/BioProtoc.1010599">10.21769/BioProtoc.1010599</a>. <a href="/downpdf.aspx?wzid=1010599&action=21&lang=0"> <img src='https://en-cdn.bio-protocol.org/bio101/images/RISLogo.png' class='videopic margin-top margin-bottom' style='width:auto;height:auto;box-shadow:none;cursor: pointer !important;' /> </a>

摘要：近年来，目标序列捕获技术已经成为了系统发育基因组学获取数据的有效手段。使用PCR产物自制捕获探针，相比于以往的商业合成探针可以极大地降低成本，节约时间，且不需要参考基因组数据，非常适用于非模式生物类群。分子标记的变异程度影响系统发育关系的解析效果，需要根据探针与被捕获样本间的遗传距离进行选择。当研究较高阶元的系统发育关系时 (如解析科间关系)，为了保证探针在所有被捕获样本中都有较高的捕获效率，需要根据探针与最远缘的样本间的遗传距离选择分子标记，二者的序列相似度需要大于85%，否则将难以捕获。这就导致可选的分子标记总是非常保守，难以解析系统发育关系。本方法是一种基于混合PCR产物自制探针的目标序列捕获方法，从探针制备策略入手解决上述困难问题。实验的主要流程可以概括为：根据已知的系统发育关系或分类学知识，混合来自多个支系或分类单元的代表物种DNA，以DNA混合液为模板PCR扩增核编码分子标记，再混合所有PCR产物，自制捕获探针，进行目标序列捕获。本方法使用混合DNA捕获探针，相比于只使用单个样本制备的探针，有效地缩小了探针与被捕获样本间的遗传距离，保证在使用变异程度高的分子标记时依然有较高的捕获效率，进而获得具有充足信号的序列来解析系统发育关系。并且，因为捕获目标区域为常用的PCR分子标记，获得的数据与PCR扩增子测序得到的数据十分相似，易于与已有数据整合。且本方法除了可以捕获到目标区域外，还可获得大量的侧翼序列，能为系统发育学研究提供更多的信号。经测试，本方法对于年代久远，DNA质量差的博物馆样本也有较高的捕获效率。推荐使用超过30个核编码分子标记、种级以上阶元的系统发育学研究使用本方法。

关键词: 目标序列捕获, PCR产物自制探针, 混合探针, 核编码分子标记, 系统发育学

研究背景：

目标序列捕获技术 (Target sequence capture) 用于富集目标基因：通过探针与DNA文库杂交，物理的使感兴趣的目标片段结合到探针上，之后洗去未结合的非目标片段，从而实现对目标基因的富集。目标序列捕获技术经济高效，对DNA的质量要求较低，适用于DNA降解较为严重的样本，近年来已经成为了系统发育学获取数据的主流方法。然而，捕获效率会受到探针与被捕获样本间遗传距离的影响，随着遗传距离增大，捕获效率会逐渐降低，当探针与被捕获样本间的序列相似度小于85%时，捕获将十分困难。因此，使用目标序列捕获技术解析高阶元 (如科间及以上水平) 系统发育关系并不容易。
目前已经有学者提出多种策略试图解决上述问题，比如：使用高度保守的基因组区域设计探针，如锚定序列捕获 (anchored enrichment, AHE) 和超保守序列元件捕获技术 (ultraconserved element, UCE)，由于目标区域高度保守，探针在远缘类群中也有较高捕获效率，但与此同时，高度保守的目标区域难以为系统发育研究提供充足信号，信号大多来自捕获过程中随机获得的侧翼序列 (flanking sequence)。另一种策略是直接针对保守度较低的外显子区域设计探针，但使用较为宽松的杂交条件，可以在一定程度上提高对远缘类群的捕获效率。最近，又有学者提出了一种新的策略：根据系统发育关系将所研究类群分为多个进化支系，为每一支系设计一套探针，再将多套探针混合起来进行杂交捕获。这种策略能够缩小了探针与被捕获样本间的遗传距离，提高捕获效率。然而，上述所有方法均使用合成探针，需要参考基因组序列用于探针设计，不适用于缺乏基因组资源的非模式生物类群。
近期有学者提出可以使用PCR产物自制捕获探针，该策略将所研究类群已有的分子标记作为捕获的目标基因，很好的解决了合成探针需要参考基因组资源的难题。并且，该方法获得的数据与PCR扩增子测序得到的数据十分相似，易于与NCBI等公共数据库中的数据进行整合。目前针对不同生物类群的通用分子标记集正不断被开发，例如102个脊椎动物通用核基因分子标记集 (Shen et al., 2013)，96个蛇类通用分子标记集 (Li et al., 2017)，95个甲虫通用核基因分子标记集 (Che et al., 2018)，94个鳞翅目通用核基因分子标记集 (Zhang et al., 2019) 等，这些分子标记资源可以保证在使用PCR产物自制捕获探针时具有充足的目标基因数量。然而，由于该策略只使用单一样本进行PCR扩增，探针与被捕获样本间遗传距离大时捕获效率低的问题仍然存在。
本方法在使用PCR产物自制捕获探针的基础上，结合前文提到的混合多套探针集的思路，提出了一种新策略，其核心思想是混合来自不同进化支系的代表物种DNA自制PCR产物捕获探针。以往使用单一样本制备探针，捕获效率受限于探针与其最远缘样本间的遗传距离，而混合不同进化支系的代表物种DNA制备探针，相当于为每一进化支系分别制备了一套探针，捕获效率仅受限于一个进化支系内部的遗传距离。因此，即便是高阶元的系统发育学研究，也可以选择较为高变的分子标记，获得更多的信号。我们在鳞翅目中对这一策略进行测试：基于94个鳞翅目通用核基因分子标记集，对来自7个总科，17个科的43种鳞翅目昆虫样本进行杂交捕获，得到了稳健可靠的系统发育关系。样本中绝大多数为干标本，DNA有一定程度的降解，最终所有样本平均94%的目标区域可以被捕获，除此之外，还得到了大量的核编码侧翼序列，使数据集总长远超预期。此外，该策略不仅仅可以应用于高阶元，由于探针制备过程十分灵活，可以根据所研究类群的系统发育关系、物种跨度自由选择代表物种，经测试，种级以上阶元的研究均适用：解析凤蛾科各属之间的系统发育关系的研究结果已发表于Zhang et al., 2020，解析环蛱蝶属属内种间系统发育关系的研究结果已发表于Ma et al., 2020。

材料和试剂

1.5 ml离心管，200 μl离心管，200 μl八联管，96孔板 (BBI Life Sciences)
20 μl，200 μl，1 ml移液枪枪头 (BBI Life Sciences)
琼脂糖 (Life Technologies)
矿物油 (上海生工)
TransTaq-T DNA Polymerase (5U) (北京全式金生物)
TransTaq-T buffer (10x) (北京全式金生物)
dNTPs (10 mM) (上海生工)
AMPure XP beads (Beckman Coulter Inc.)
无水乙醇 (分析纯)
ATP (100 mM) (上海生工)
T4 Polynucleotide Kinase (10 U/μl) (Fermentas)
T4 Polynucleotide Kinase buffer (10x) (Fermentas)
T4 DNA ligase (5 U/μl) (Fermentas)
T4 DNA ligase buffer (10x) (Fermentas)
PEG-4000 (50%) (上海生工)
NaCl (5 M) (分析纯）
Tris-HCl, pH 8.0 (1 M) (上海生工)
EDTA, pH 8.0 (0.5 M) (上海生工)
dsDNA Fragmentase (New England BioLabs Inc. 与超声波DNA打断仪二选一)
dsDNA Fragmentase Buffer (10x) (New England BioLabs Inc. 与超声波DNA打断仪二选一)
NEBNext Ultra DNA Library Prep Kit (New England BioLabs Inc.)
Human Cot1 (1 µg/µl) (Life Technologies)
SSPE (20x) (上海生工)
Denhardt’s (50x) (上海生工)
SDS (10%) (上海生工)
SSC (20x) (上海生工)
Dynabeads MyOne Streptavidin C1 beads (Life Technologies)
Tween-20 (10%) (上海生工)
通用型DNA纯化回收试剂盒 (天根生化科技 (北京) 有限公司)
0.1x TE缓冲液 (上海生工)
双蒸水 (广州誉维生物科技仪器有限公司Unique超纯水机制)
生物素接头 (见溶液配方)
磁珠结合缓冲液 (见溶液配方)
洗脱缓冲液1 (见溶液配方)
洗脱缓冲液2 (见溶液配方)

仪器设备

0.2-2 μl, 2-20 μl, 20-200 μl, 100-1000μl移液枪
PCR仪 (96孔，可进行Touch down PCR，博日BIOER TC-E-96G)
涡旋振荡器 (Scientific Industries Vortex-Genie2涡旋振荡器)
适配1.5 ml离心管的磁力架 (推荐16孔，Invitrogen)
适配1.5 ml离心管的震荡孵育器 (杭州奥盛恒温混匀仪MS-100)
适配1.5 ml离心管、200 μl离心管的小型离心机
NanoDrop 2000 (Thermo)
电泳仪
服务器 (Linux系统，32G以上的内存，500G的存储)
超声波DNA打断仪 (与DNA片段化酶二选一，宁波新芝SCIENTZ18-A)

软件

Trimmomatic: http://www.usadellab.org/cms/?page=trimmomatic
SPAdes: https://github.com/ablab/spades/
CD-HIT: https://github.com/weizhongli/cdhit/
BLAST: https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/
Exonerate: https://github.com/nathanweeks/exonerate.git
Mafft: https://mafft.cbrc.jp/alignment/software/
Gblocks: http://molevol.cmima.csic.es/castresana/Gblocks.html
RAxML: https://github.com/stamatak/standard-RAxML

图1. 实验步骤与数据分析总流程图

实验步骤

探针制备 (参考图1探针制备部分)
分子标记的选择：推荐分子标记数量大于30个时使用本方法。建议选择长度为500~2000 bp的分子标记，分子标记在所研究类群中的变异程度不宜过低，以保证样本之间序列存在差异，为系统发育学分析提供信号。
用于制备探针的样本的选择、DNA质量及投入量：本方法在不同支系选取代表物种制备混合DNA捕获探针 (参照图1，如不清楚系统发育学关系，可按照分类学选取代表物种。如研究属间关系，可以从每个属选择一个代表物种)。用于制备探针的样本的DNA质量要好：DNA的降解程度低，最好有主带。等量混合代表物种的DNA，使用0.1x TE缓冲液调整DNA混合液浓度，使其终浓度为30 ng/μl。具体每个用于制备探针的样本混合多少DNA，需要根据用于制备探针的样本数量和分子标记数量进行估算。例如，混合10个样本的DNA用于制备探针，共有100个分子标记。每个分子标记的PCR扩增需要30 ng DNA (表1)，100个分子标记总共需要3000 ng DNA，那么每个样本就需要3000/10=300 ng DNA。
1.1
对所选分子标记进行PCR扩增 (表1-表4)
1)
为保证PCR扩增成功率，推荐使用巢式PCR分别对每个分子标记进行两轮扩增。如果已知所选分子标记十分容易扩增，如COI，Cytb等，也可以只进行一轮PCR扩增。如果分子标记数量较多，推荐使用96孔板进行反应。需保证PCR产物3'有一个突出A，这里用的Taq酶为全式金的TransTaq-T。以下PCR程序仅为示例，可根据自己实验室的习惯进行修改。

表1. 第一轮PCR(准备如下20 μl的反应体系)

表2. PCR反应程序

表3. 第二轮PCR (准备如下20 μl的反应体系)

表4. PCR反应程序

2)
使用1%的TAE琼脂糖凝胶对第二轮的PCR产物进行电泳检测，等体积混合所有成功扩增的分子标记的第二轮PCR产物 (完全没有扩增出来才算失败，如果扩增结果是在目标区域外有非特异性扩增，这个分子标记算作扩增成功)。
1.2
使用 AMPure XP磁珠纯化PCR产物混合液
因等体积混合所有成功扩增的分子标记后，PCR 产物混合液的DNA总量非常多，如果全部制成探针，通常会远超过杂交反应的需求量。考虑到后续试剂成本和实验工作量，不建议将所有PCR产物都制成探针，而是根据样本数取适量的 PCR 产物混合液进行制备。我们提供了一个经验上的参考：4 μg磁珠纯化后的PCR产物混合液，足够进行300个样本的杂交捕获反应。由于未经纯化的PCR产物无法测定浓度，因此在磁珠纯化前无法估计DNA总量。建议先纯化100 μl PCR产物混合液，之后测定浓度，计算DNA总量，再考虑要不要纯化更多PCR产物混合液。剩余的PCR产物混合液-20 °C保存，日后需要时可以重新制备探针。
1)
重悬AMPure XP 磁珠。
2)
使用移液枪吸取100 μl PCR产物混合液至1.5 ml离心管中，加入180 μl重悬的AMPure XP 磁珠 (待纯化溶液体积的1.8x)，用移液枪吸打混匀至少十次。
3)
室温放置5 min。
4)
短暂离心 (简易离心机离心10 s)，然后将离心管置于磁力架上，静置5 min，使磁珠与上清液分离，可以观察到溶液变得清亮，此时小心弃去上清液。
注：不要丢弃磁珠。
5)
保持离心管于磁力架上，向管中加入200 μl 新配制的80%乙醇，室温放置30 s，然后小心弃去上清。
6)
重复步骤5) 一次。
7)
保持离心管于磁力架上，打开离心管盖，风干磁珠5 min。
注：不要风干过度，否则会影响片段回收。
8)
将离心管从磁力架上移下，加入100 μl 0.1x TE缓冲液，用移液枪吸打混匀至少十次，使磁珠重悬，之后室温放置2 min。
9)
短暂离心后将离心管置于磁力架上5 min，可以观察到溶液变得清亮，使用移液枪将上清液转移至新的1.5 ml离心管，使用Nanodrop测定浓度。
1.3
末端磷酸化
每个反应体系可以处理4 μg上一步骤获得的纯化的PCR产物混合液，足够进行300个样本的杂交捕获反应，剩余纯化的PCR产物混合液-20 °C保存，日后需要时可以重新制备探针。
1)
使用200 μl离心管配制如下30 μl的反应体系 (表5)。

表5. 末端磷酸化

2)
使用移液枪吸打混匀，之后短暂离心。
3)
将离心管置于PCR仪中，运行以下程序：
25 °C 30 min
4 °C短暂保存 (30 min以内)
注：程序运行结束后尽快进行下一个步骤。
1.4
连接生物素接头
1)
向上一步骤反应后的离心管中加入以下30 μl混合液 (表6)，使连接反应的体积为60 μl。

表6. 连接生物素接头

*生物素接头为两条寡核苷酸链Bio-T和TR退火得到，见配方及附录。

1.5
使用 AMPure XP 磁珠纯化连接产物
同步骤1.2，使用20 μl 0.1x TE缓冲液洗脱。
1.6
使用带有生物素修饰的引物Bio-T对纯化后的连接产物进行PCR扩增
进行扩增的目的是确保扩增后的探针都带有生物素。引物Bio-T就是步骤1.4中组成双链生物素接头中的寡核苷酸链Bio-T，需稀释到10 μM。
1)
使用200 μl离心管配制如下25 μl的反应体系，一个反应处理2 μl纯化后的连接产物，因为上一步骤的洗脱体积为20 μl，建议预留1 μl用于后续电泳比对PCR扩增效果，所以共需进行9个PCR反应 (表7-表8)。

表7. 使用带有生物素修饰的引物Bio-T对纯化后的连接产物进行PCR扩增

表8. PCR反应程序

2)
使用1% 的TAE琼脂糖凝胶对未进行PCR扩增的连接产物和PCR产物同时进行电泳检测，比较扩增效果。
1.7
使用 AMPure XP 磁珠纯化PCR产物
同步骤1.2，将9个反应的PCR产物混合后一起纯化，使用100 μl 0.1x TE缓冲液洗脱。使用Nanodrop测量浓度，之后使用0.1x TE缓冲液调整至终浓度为50 ng/μl，至此探针制备完成。
Illumina文库构建 (参考图1 DNA文库构建部分)
文库构建的插入片段大小为200-400 bp。DNA质量及投入量：对DNA质量要求低，DNA的平均长度大于200 bp时就能得到较好效果。投入的DNA总量在100 ng~500 ng均可，建议使用500 ng。
2.1
DNA片段化
可以使用超声波破碎仪和DNA片段化酶两种方法进行基因组DNA片段化。超声波破碎仪相比于DNA片段化酶更好控制，不易使DNA过度降解，且不需要后续纯化，实验操作更加简便，因此推荐使用超声波破碎仪来进行DNA片段化。参数建议：使用宁波新芝SCIENTZ18-A超声波DNA打断仪，每个打断循环20s：打10s+停10s，共打12个循环。
如果选择使用DNA片段化酶的方法进行DNA片段化，参考以下步骤：
1)
使用200 μl离心管配制如下20 μl的反应体系 (表9)：

表9. DNA片段化

2)
使用移液枪吸打混匀，之后短暂离心。
3)
置于PCR仪中，运行以下程序：37 °C 10-25 min*
*需要先进行预实验，梯度测试，根据片段化效果确定具体运行时间
4)
将离心管快速转移至冰上，加入2 μl 0.5 M EDTA，快速吸打混匀，终止反应。
5)
使用2% TAE琼脂糖凝胶进行电泳检测。
6)
使用AMPure XP磁珠纯化片段化产物：同步骤1.2，使用30 μl 0.1x TE缓冲液洗脱。
2.2
使用 NEBNext Ultra DNA Library Prep试剂盒构建文库
文库间需要用特异性标签进行区分。文库可以批量构建好后-20 °C保存，待探针和文库都准备好后一起进行杂交捕获。
杂交捕获
推荐将4个带有不同特异性标签的文库混合在一起，进行杂交捕获。一个混合文库的总量为500 ng，每个文库取125 ng。经测试，混合文库的杂交效果很好，可以节约文库和实验成本。
3.1
准备文库混合液和杂交缓冲液
文库混合液和杂交缓冲液共50 μl，分别配制：
1)
推荐使用200 μl每孔的八联管按如下配方配制31.5 μl文库混合液，使用移液枪吸打混匀，短暂离心后加入10 μl矿物油，防止杂交时溶液受热蒸发。之后置于冰上备用 (表10)。

表10. 配制文库混合液

*寡核苷酸阻碍物BO1-5的作用是防止文库的接头发生交联，避免非目标区域的捕获。此外，每条寡核苷酸阻碍物的3’末端添加了磷酸化修饰，目的是防止它们在扩增富集文库时作为PCR引物。序列见附录。

2)
推荐使用200 μl每孔的八联管按如下配方配制18.5 μl杂交缓冲液，使用移液枪吸打混匀，短暂离心后加入10 μl矿物油，之后置于冰上备用 (表11)。

表11. 配制杂交缓冲液

*20× SSPE在使用前要充分涡旋，10% SDS需先置于室温充分溶解。

3.2
杂交反应
1)
设置PCR仪程序：95 °C 5 min，65 °C 5 min，65 °C 6 h，60 °C 6 h，55 °C 6 h，50 °C 6 h，45 °C 6 h。反应结束后可在45 °C存放几个小时。
2)
将装有文库混合液的八联管放入PCR仪，运行程序，使文库DNA在95 °C变性5 min。
3)
当PCR仪降温至65 °C时，保持文库混合液的八联管在PCR仪中，将装有杂交缓冲液的八联管也放入PCR仪，使杂交缓冲液在65 °C预热5 min，之后使用移液枪将文库混合液转移到杂交缓冲液的八联管中，使用移液枪快速吸打混匀，简短离心后放回PCR仪中继续运行程序，直至程序结束。
3.3
洗脱杂交产物
提前配好磁珠结合缓冲液、洗脱缓冲液1和洗脱缓冲液2 (见配方)，可在杂交程序结束前约90 min开始以下步骤：
1)
重悬MyOne磁珠，使用移液枪吸取杂交反应数量×10 μl的MyOne磁珠到1.5 ml离心管中，每管中总磁珠量不超过180 μl。
2)
将磁珠于磁力架上静置2 min，之后弃上清。
3)
加入200 μl磁珠结合缓冲液，涡旋5-10 s，置于磁力架上静置2 min，弃上清。
4)
重复步骤3)两次。
5)
加入杂交反应数量×20 μl的磁珠结合缓冲液重悬MyOne磁珠，之后加入1 μl 10% Tween-20，涡旋混匀。
6)
根据杂交反应数量准备新的1.5 ml离心管，编号。向空管中分别加入180 μl 磁珠结合缓冲液和20 μl上一步重悬的MyOne磁珠。之后将这些管子放置在震荡孵化器中，45 °C (杂交的最后一个温度) 静置温育2 min。
7)
使用移液枪将杂交产物分别转移至上一步温育好的离心管中。之后将这些管子置于震荡孵化器中，45 °C (杂交的最后一个温度)，500 rpm震荡温育30 min。之后简短离心，于磁力架上静置2 min，弃上清。
注：转移杂交产物时尽量不要吸到矿物油。
8)
将离心管从磁力架上取下，向其中加入200 μl洗脱缓冲液1，反复吸打混匀，室温静置10 min。简短离心后于磁力架上静置2 min，弃上清。
9)
重复步骤8) 一次，同时将洗脱缓冲液2置于45 °C (杂交的最后一个温度) 预热。
10)
将离心管从磁力架上取下，向其中加入200 μl预热到 45 °C 的洗脱缓冲液2，反复吸打混匀后放入震荡孵化器中，45 °C 静置温育10 min。简短离心后于磁力架上静置2 min，弃上清。
11)
重复步骤 10) 两次
12)
使用30 μl 0.1x TE缓冲液洗脱，可-20 °C 保存。
3.4
杂交后的PCR扩增
1)
使用200 μl离心管配制如下25 μl的反应体系，对每个杂交反应洗脱的杂交产物进行PCR扩增 (表12-表13)：

表12. 杂交后的PCR扩增

*P5引物，P7引物序列见附录。

表13. PCR反应程序

2)
使用2% TAE琼脂糖凝胶进行电泳检测。
3.5
使用AMPure XP磁珠纯化PCR产物
同步骤1.2，洗脱30 μl。使用Nanodrop测量浓度。
混合纯化产物，割胶纯化，高通量测序
根据浓度等量混合每个杂交反应的PCR产物，使用通用型DNA纯化回收试剂盒进行割胶回收，洗脱25 μl。之后进行高通量测序。因胶回收试剂盒回收效率偏低，高通量测序的最低总量要求约为500 ng，根据经验，割胶时投入的纯化PCR产物总量应大于1 μg。

结果与分析 (参考图1生物信息学数据分析部分)

数据预处理与组装
1)
使用Trimmomatic (v 0.39) 对测序得到的原始数据 (raw data) 进行质量控制和筛选，去除reads中的接头序列和低质量的reads，得到高质量的clean reads。
2)
依据各样本的特异性标签对clean reads进行分选。
3)
使用SPAdes (v 3.8.1) 对reads进行从头拼接，得到contigs。
4)
使用cd-hit-est (v 4.8.1) 合并相似度大于95%的contigs。
5)
保留平均测序深度大于5×的contigs用于后续分析。
命令行：
$ java -jar trimmomatic-0.39.jar PE sample1_R1.fq.gz sample1_R2.fq.gz sample1_R1_paired.fq.gz sample1_R1_unpaired.fq.gz sample1_R2_paired.fq.gz sample1_R2_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10:2:keepBothReads LEADING:3 TRAILING:3 MINLEN:36
*sample1_R1.fq.gz和sample1_R2.fq.gz为测序返回的正反向reads。sample1_R1_paired.fq.gz和sample1_R2_paired.fq.gz为软件输出的过滤后的成对reads。
$ spades.py -t 10 --cov-cutoff auto -1 sample1_R1_paired.fq.gz -2 sample1_R2_paired.fq.gz -o sample1_contigs.fasta
*-1 sample1_R1_paired.fq.gz和-2 sample1_R2_paired.fq.gz，为上一步骤输出的过滤后的成对reads。-o为拼接后输出的contigs文件名。
$ cd-hit-est -i sample1_contigs.fasta -o sample1_contigs_cd_hit.fasta -c 0.95
*-i sample1_contigs.fasta为上一步拼接出的contigs。
同源序列的鉴定
使用tblastn的方法在各样本的contigs中寻找各分子标记的同源序列：
1)
tblastn所用参考序列的获得：从NCBI等数据库下载各分子标记近源物种的核酸序列，并将其翻译为蛋白参考序列。
2)
将蛋白参考序列作为query，各样本拼接得到的contigs作为database进行tblastn (e-value<1e-5, identity>60%, coverage>50%)，提取每条参考序列找到的score值最高的contig作为该分子标记的同源序列。将同一个分子标记在各样本中找到的同源序列写入一个fasta文件，获得各分子标记的同源序列组。
命令行：
$ tblastn -db sample1_contigs_cd_hit.fasta -query QUERY -outfmt 5 -out OUTFILE -evalue 1e-5
鉴定外显子和内含子的边界
因本方法在获得各核编码分子标记的目标区域的同时，还能额外获得其两端的侧翼序列，这些侧翼序列中可能包含内含子序列，因此需要使用exonerate (v 2.2.0) 软件识别每条contig的外显子和内含子的边界，只使用所有的外显子序列进行后续分析。exonerate的query序列为一个分子标记所在基因的完整蛋白序列，target为该分子标记的同源序列组。根据exonerate的结果，串联每条contig中的外显子序列。
命令行：
$ exonerate --model p2g --query QUERY --target TARGET --showtargetgff T > OUTFILE
序列比对与数据精制，构建系统发育树
1)
使用mafft (v 7.450) 对各分子标记的同源序列组进行比对，获得各分子标记的比对矩阵 (alignment)，之后使用Gblocks (v 0.91b, -t = c, -b5 = h) 去除比对矩阵中比对不佳的区域。
2)
为了进一步提高数据质量，需要根据单基因树删除数据集中的问题序列。使用RAxML (v 8.0.0) 对各分子标记的比对矩阵构建单基因树，去除单基因树中明显的长枝对应的序列。
3)
串联各分子标记的比对矩阵，使用RAxML (v 8.0.0, GTR+I+Γ model) 构建系统发育树。
命令行：
$ mafft --auto INPUT_FILE > OUTFILE
*INPUT_FILE为每个分子标记的同源序列组的fasta文件，OUTFILE为输出文件名。
$ Gblocks INPUT_FILE -t=c -b5=h
*INPUT_FILE为上一步mafft输出的比对结果。
$ raxmlHPC-PTHREADS-AVX -f a -x 12345 -T 3 -p 12345 -# 200 -m GTRGAMMA -s INPUT_FILE -q PATITION_FILE

溶液配方

生物素接头：
1)
先配制10x oligo hybridization buffer，以配制10 ml为例 (表14)：

表14. oligo hybridization buffer配方

2)
单链Bio-T、TR需要合成，之后按以下配方进行配置。(以配制100 μl生物素接头为例) (表15)：

表15. 生物素接头配方

*Bio-T、TR序列见附录

3)
退火：涡旋混匀后，分装于每孔200 μl的八联管中，短暂离心。将八联管放入PCR仪，运行程序：95 °C 3 min，之后每秒降温 0.1 °C/s，降温至10 °C，也可以在95 °C 3 min后关闭PCR仪，使其自然降温至室温。
磁珠结合缓冲液 (以配制10 ml为例) (表16)：

表16. 磁珠结合缓冲液配方
洗脱缓冲液1 (以配制10 ml为例) (表17)：

表17. 洗脱缓冲液1配方
洗脱缓冲液2 (以配制10 ml为例) (表18)：

表18. 洗脱缓冲液2配方

致谢

实验方案摘自发表的文章 Zhang, Y., Deng, S., Liang, D., Zhang, P. (2019). Sequence capture across large phylogenetic scales by using pooled PCR-generated baits: A case study of Lepidoptera. Mol Ecol Resour 00:1-15. doi: 10.1111/1755-0998.13026

竞争性利益声明

无经济或非经济性竞争性利益。

参考文献

Che, L. H., Zhang, S. Q., Li, Y., Liang, D., Pang, H., Ślipiński, A. and Zhang, P. (2017). Genome-wide survey of nuclear protein-coding markers for beetle phylogenetics and their application in resolving both deep and shallow-level divergences. Mol Ecol Resour 17(6): 1342-1358.
Li, C., Hofreiter, M., Straube, N., Corrigan, S. and Naylor, G. J. (2013). Capturing protein-coding genes across highly divergent species. Biotechniques 54(6): 321-326.
Li, J. N., He, C., Guo, P., Zhang, P. and Liang, D. (2017). A workflow of massive identification and application of intron markers using snakes as a model. Ecol Evol 7(24): 10042-10055.
Shen, X. X., Liang, D., Feng, Y. J., Chen, M. Y. and Zhang, P. (2013). A versatile and highly efficient toolkit including 102 nuclear markers for vertebrate phylogenomics, tested by resolving the higher level relationships of the Caudata. Mol Biol Evol 30(10): 2235-2248.
Peñalba, J. V., Smith, L. L., Tonione, M. A., Sass, C., Hykin, S. M., Skipwith, P. L., McGuire, J. A., Bowie, R.C. and Moritz, C. (2014). Sequence capture using PCR-generated probes: A cost-effective method of targeted high-throughput sequencing for nonmodel organisms. Mol Ecol Resour 14(5): 1000-1010.
Ma, L., Zhang, Y., Lohman, D. J., Wahlberg, N., Ma, F., Nylin, S., Janz, N., Yago, M., Adu se-poku, K., Peggie, D., Wang, M., Zhang, P. and Wang, H. (2020). A phylogenomic tree inferred with an inexpensive pcr-generated probe kit resolves higher-level relationships among Neptis butterflies (nymphalidae: limenitidinae). Syst Entomol 45(4): 924-934.
Maricic, T., Whitten, M. and Pääbo, S. (2010). Multiplexed DNA sequence capture of mitochondrial genomes using PCR products. PLoS One 5(11): e14004.
Zhang, Y., Deng, S., Liang, D. and Zhang, P. (2019). Sequence capture across large phylogenetic scales by using pooled PCR-generated baits: A case study of Lepidoptera. Mol Ecol Resour 00: 1-15.
Zhang, Y., Huang, S., Liang, D., Wang, H., and Zhang, P.(2020). A multilocus analysis of Epicopeiidae (Lepidoptera, Geometroidea) provides new insights into their relationships and the evolutionary history of mimicry. Mol Phylogenet Evol 149: 106847.

附录

合成序列信息 (5'-3')
Bio-T: biotin-CAAGGACATCCGT
TR: CGGATGTCCTTGC
BO1.P5.F: AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-phosphate
BO3.P7.part1.F: AGATCGGAAGAGCACACGTCTGAACTCCAGTCAC-phosphate
BO5.P7.part2.F: ATCTCGTATGCCGTCTTCTGCTTG-phosphate
P5引物: AATGATACGGCGACCACCGAGATCTA
P7引物: CAAGCAGAAGACGGCATACGAGATTG

Please login or register for free to view full text

引用格式：张圆, 梁丹, 张鹏. (2021). 基于混合PCR产物制备捕获探针的基因组捕获方法. Bio-101: e1010599. DOI: 10.21769/BioProtoc.1010599.

How to cite: Zhang, Y., Liang, D. and Zhang, P. (2021). Genome Sequence Capture Based on Pooled PCR-generated Baits. Bio-101: e1010599. DOI: 10.21769/BioProtoc.1010599.

Q&A

If you have any questions/comments about this protocol, you are highly recommended to post here. We will invite the authors of this protocol as well as some of its users to address your questions/comments. To make it easier for them to help you, you are encouraged to post your data including images for the troubleshooting.

Find out more

We use cookies to improve your user experience on this site. By using our website, you agree to the storage of cookies on your computer.

Protocols 

Request a Protocol

Submit 

About

A brief version of this protocol appeared in:

Similar Protocols

Reproducibility Feedback

Navigate this Article

Genome Sequence Capture Based on Pooled PCR-generated Baits

张圆

梁丹

张鹏

Protocols 

Request a Protocol

Submit 

About

A brief version of this protocol appeared in:

Similar Protocols

Reproducibility Feedback

Navigate this Article

Genome Sequence Capture Based on Pooled PCR-generated Baits

张 圆

梁 丹

张 鹏

张圆

梁丹

张鹏