Advanced Search
Published: Aug 25, 2021 DOI: 10.21769/BioProtoc.1010640 Views: 4389
研究背景
在过去十年里,随着高通量测序技术的发展,我们见证了生物多样性研究中方法学和应用的巨大转变,例如采用标准脱氧核醣核酸 (Deoxyribonucleic acid,DNA) 序列用于快速准确地物种鉴定;利用高通量测序技术来分析复杂的环境样品 (如混合样品、环境DNA (eDNA)、无脊椎动物来源的DNA (iDNA) 等)。保存有规范记录信息的DNA条形码参考数据库也在全球科研人员的共同努力下逐渐建立起来。生命条形码数据库BOLD (The Barcode of Life Data systems, http://v4.boldsystems.org/) 已经拥有了大约八百万条条形码序列,覆盖了包含动物、植物、真菌等生物在内的约30万种物种 (2020年2月截止)。丰富的参考条形码数据为物种鉴定、系统进化关系的构建、种间交互作用和群落结构的研究,以及加深对生物多样性的理解提供了坚实的基础。
全球条形码参考数据库已经为多个生态系统的研究提供了重要帮助。早期的生态及生物多样性研究经常利用Sanger测序方法来进行条形码测序,随着高通量测序技术 (High-Throughput Sequencing Technologies,HTS) 的推广,DNA宏条形码和线粒体宏基因组方法也被越来越多的研究者接受并使用。但是当研究某些新的环境样品时,条形码数据库中参考数据的缺乏仍会使得基于HTS的宏条形码组学研究遭遇瓶颈:得到的序列不能被有效分配到具体的物种,从而无法反应真实的生物多样性组成,使研究者难以深入了解环境的生态关系。
以昆虫CO1条形码为例,标准条形码获取成本较十多年前显著降低。在不包括样品收集及处理的成本情况下,传统的Sanger测序的平均生产成本约10美元,如果要构建1亿个样品的条形码数据集,则需要10亿美元。人类基因组在最初构建时,大约花费了30亿美元,但随着高通量技术的发展,目前一个基因组的测序成本已经降低为不到600美元。
先前基于高通量测序技术获取DNA条形码的方法也存在着各自的优缺点 (图1),比如:基于罗氏454测序平台构建单样品条形码的研究可以通过拼接获得CO1全长条形码,但成本较高;测序读长较短的部分Illumina测序平台也逐渐用于条形码数据的获取,有研究者使用长度为313 碱基对 (base pair,bp) 的CO1条形码进行分析,该方法虽然可以一次性测序获得全长序列,但由于条形码长度较短,因此特异性会显著降低;也有研究者利用两次聚合酶链式反应 (polymerase chain reaction,PCR) 增加标签序列和测序引物,继而通过测序来直接获取全长条形码,但相关操作比较繁琐。在基因组领域,短数据可以利用位置关系被拼接为准确的长片段;根据类似的原理,所在项目组已经专门开发过针对条形码的组装算法,可以被用于组装混合样品中的全长条形码。根据当时的研究背景,我们开发了基于Illumina Hiseq平台和PacBio 平台的HIFI-Barcode方法,可以通过编码引物的方法,得到带有特定标签序列的PCR产物,从而实现一次性获得96个样品的DNA条形码的目标。该方法发表于Liu et al., 2017。HIFI-Barcode 方法有很高的准确性和效率,但是涉及到较为复杂的分析过程,所以我们认为基于高通量的条形码技术仍有提升的空间。随着国产测序仪MGISEQ 2000 推出单端400 bp测序的模块,我们进一步在此平台上开发出了HIFI-SE的方法,可以不需要进行打断,在其后的数据分析阶段,只需要进行扩增子两端序列的简单拼接,就可得到完整的COI条形码序列。该方法发表于Yang et al., 2020。
以上三种方法相互独立,测序及分析策略不同,但是在前期样品准备,DNA提取和PCR操作等方面基本一致,所以在此操作手册中,我们将三种方法的实施步骤及相关比较纳入其中,方便研究者选择合适的建库测序平台和后续的分析方法。
图1. 高通量获取标准DNA条形码的策略比较,不同实验方案和测序策略 *代表本研究研制的方法策略。图片修改自Yang et al., 2020。A-E 分别代表的研究为 Meier et al., 2016; Shokralla et al., 2015; Cruaud et al., 2017; Liu et al., 2017; Hebert et al., 2018; Yang et al., 2020。
材料与试剂
仪器设备
软件
实验步骤
本实验流程包含了三种高通量条形码获取的流程,三种方法的测序前实验环节方法一致 (对应步骤1至3),测序文库构建、测序及分析环节有差异。在完成PCR产物的混合后,可选择一种平台进行后续的建库测序。流程主要如图1所示,方法1 HIFI-Barcode-Hiseq/MGISEQ可选择平台及测序技术为Hiseq或MGISEQ PE150;方法2 HIFI-Barcode-Pacibio可选择平台 Pacbio;方法3 HIFI-Barcode-SE400可选择MGISEQ SE400。后续根据标签数目的增加,单条形码的测序成本还可以进一步降低。
表1. 三种方法的多维度比较
图2. 实验操作及分析流程图
| 组分 | 每个PCR体系加入量 |
| ddH2O | 16.2 μl |
| 10 μM 正向标签引物 | 1 μl |
| 10 μM 反向标签引物 | 1 μl |
| 10x primer buffer | 3 μl |
| dNTP mix | 2.5 μl |
| exTaq | 0.3 μl |
| DNA样本或无菌水 | 1 μl (1 μl DNA样本中的DNA含量约200 ng) |
得到PCR产物之后,可以根据选择的方法对测序平台进行选择,然后进行相应的标准文库的构建和测序。
测序数据分析


命令行:
$ python3 HIFIBarcode.py all -outpre hifi -index 5 -q1 test1.fq.gz -q2 test2.fq.gz -primer indexed_primer.txt
注:“indexed_primer.txt”文件详见附录B
综上,可获得结合了二代测序技术和生物信息分析技术得到的目标和非目标条形码。

溶液配方
表3. DNA提取试剂、材料
| 试剂名/材料名 | 中文名 | 缩写 |
|---|---|---|
| Disodium ethylenediamine tetraacetate • 2H2O | 乙二胺四乙酸二水 | EDTA |
| Ethyl alcohol (anhydrous) | 无水乙醇 | EtOH 96% |
| Guanidine thiocyanate | 异硫氰酸胍 | GuSCN |
| Molecular biology grade water | 分子生物等级用水 | ddH2O |
| Polyethylene glycol sorbitan monolaurate | 吐温-20 | Tween-20 |
| Proteinase K | 蛋白酶K | |
| Sodium chloride | 氯化钠 | NaCl |
| Sodium dodecyl sulfate | 十二烷基硫酸钠 | SDS |
| Sodium hydroxide | 氢氧化钠 | NaOH |
| t-Octylphenoxypolyethoxyethanol | 叔辛基苯氧基聚乙烯乙氧基乙醇 | Triton X-100 |
| Tris(hydroxymethyl)aminometane | 三 (羟甲基) 氨基甲苯 | Trizma base |
| Tris(hydroxymethyl)aminometane hydrochloride | 三 (羟甲基) 氨基甲烷盐酸 分 | Trizma HCl |
| AcroPrepTM 96 1 ml filter plate with 3.0 μm Glass Fiber media over 0.2 μm Bio-Inert membrane, natural housing | PALL AcroPrep 96孔滤板,1 ml,3.0 μm,玻璃纤维/0,2Bio-Inert膜 | PALL |
| AxysealTM sealing film | 封膜 | self-adhering cover |
| Eppendorf® twin.tec 96-well microplates | 96孔板 | microplate |
| PP MASTERBLOCK®, 96 Well, 2 ml | 96孔方孔盒 | square-well block |
| SBS Receiver Plate Collar | PALL 离心适配圈 | PALL collar |
| Others | 其它常规仪器或材料:移液器和枪头、离心机、一次性手套等 |
表4. 预备液配置表
| 预备液名称 | 主要成分 | 含量 | 体积 (加ddH2O) |
|---|---|---|---|
| 1 M Tris-HCI | Trizma® base | 26.5 g | 500 ml |
| Trizma® HCl | 44.4 g | ||
| 1 M Tris-HCI | Trizma® base | 9.7 g | 500 ml |
| Trizma® HCl | 66.1 g | ||
| 0.1 M Tris-HCI | Trizma® base | 6.06 g | 500 ml |
| 1 M NaCl | NaCl | 29.22 g | 500 ml |
| 0.5 M EDTA | EDTA | 186.1 g | 1000 ml |
| NaOH | 20.0 g | ||
| Proteinase K (20 mg/ml) | Proteinase K | 100 mg | 5 ml |
表5. DNA提取试剂
| 混合液名称 | 成分 | 添加量 | 体积 (加ddH2O后) |
|---|---|---|---|
| 昆虫裂解液 Insect Lysis Buffer | GuSCN | 16.5 g | 200 ml |
| 0.5 M EDTA, pH 8.0 | 12 ml | ||
| 1 M Tris-HCl, pH 8.0 | 6 ml | ||
| Triton X-100 | 1 ml | ||
| Tween-20 | 10 ml | ||
| 吸附缓冲液Binding Buffer | GuSCN | 354.6 g | 500 ml |
| 0.5 M EDTA, pH 8.0 | 20 ml | ||
| 0.1 M Tris-HCl, pH 6.4 | 50 ml | ||
| Triton X-100 | 20 ml | ||
洗脱液 | EtOH 96% | 300 ml | 475 ml |
| 1 M NaCl | 23.75 ml | ||
| 1 M Tris-HCl, pH 7.4 | 4.75 ml | ||
| 0.5 M EDTA, pH 8.0 | 0.475 ml | ||
| 吸附混合液Binding Mix | Binding Buffer | 50 ml | 100 ml |
| EtOH 96% | 50 ml | ||
| 蛋白洗脱液 | 100 ml | ||
| Binding Buffer | 26 ml | ||
| EtOH 96% | 70 ml |
致谢
本研究获得科技部科技基础资源调查专项《中国东部传粉昆虫资源调查与评估》 (2018FY100403) 以及深圳市科创委基金 (NO. JCYJ20170817150755701) 的资助
竞争性利益声明
无经济或非经济性竞争性利益。
参考文献
Do you have any questions about this protocol?
Post your question to gather feedback from the community. We will also invite the authors of this article to respond.
Share
Bluesky
X
Copy link