研究背景
致病性病毒的感染能够导致宿主疾病或死亡,严重危害公众健康,也会造成巨大的经济损失。然而,传统的病毒学研究手段在面临近年来频繁爆发的传染病时,表现出了明显的不足。一方面,从局部部位采集的样品,不足以反映病毒的整体情况,我们仅能从单一的点出发,对有限种类的病毒开展研究。另一方面,因为缺少合适的培养体系或动物模型,病毒学的基础研究困难重重。相比于其他疾病,以上这些不足极大地限制了我们对于病毒的研究,也使得病毒成为了当下研究最为不足的生物实体。
"病毒组 (Virome)"是近年来兴起的一个新的组学概念,是指特定的生物个体、生物群体或生态环境中携带的所有病毒的集合,其包括DNA或RNA作为遗传物质的、已知或未知的、致病或非致病的、内源或外源的全部病毒。得益于高通量测序技术 (HTS) 的蓬勃发展,及其在病原生物学领域的广泛应用,病毒组的研究日益成熟并且一改传统的病毒学研究模式。人们不需要再颇费周章地寻找合适的病毒培养体系或模式动物,直接将感兴趣的样品构建成测序文库 (Library),通过宏基因组 (Meta-genomics) 或宏转录组 (Meta-transcriptomics) 的测序方法便可以检测样品中的绝大部分病毒,从最宏观的视角剖析最微观的世界 (Shi et al., 2018; Zhang et al., 2018; Zhang et al., 2019)。
高通量测序技术,又称"下一代测序技术 (NGS) ",是对传统的测序方法的革命性的变革,可以同时对高达数百万条的核酸分子进行序列测定,使得测序通量提高了成千万倍,也使得单一物种的基因组或转录组测序变得简单、快捷和便宜。高通量测序技术引领了多个生命科学领域的技术突破,有着广泛的应用。在病毒学研究当中,基于高通量测序技术的病毒组研究成为了人们认识病毒世界的强大工具。Zhang等人在他们的一篇评论中详细地介绍了利用宏基因组学、宏转录组学手段来拓展病毒圈 (Virosphere),相比于其他传统方法 (病毒培养、共有引物PCR) 具有通量高、视角广等不可比拟的优势(Zhang et al., 2018)。
2017年,ICTV宣布将通过宏基因组或宏转录组的方法发现的病毒加入正式的病毒学分类体系 (Simmonds et al., 2017)。高通量技术赋予了病毒学研究新的生机,自此人们发现和认识新病毒的过程进入了"快车道"。
材料与试剂
- 3 mm研磨珠 (氧化锆) (武汉赛维尔生物科技有限公司,catalog number: G0203)
- RNAlater (赛默飞世尔科技 (中国) 有限公司,catalog number: AM7021)
- β-巯基乙醇 (1000x) (赛默飞世尔科技 (中国) 有限公司,catalog number: 21985 023)
- 无水乙醇 (上海盛稀化工有限公司,catalog number: 64-17-5)
- RNase-free ddH2O (宝日医生物技术 (北京) 有限公司,catalog number: 9012)
- DL2000 DNA Marker (宝日医生物技术 (北京) 有限公司,catalog number: 3427)
- DL15000 DNA Marker (宝日医生物技术 (北京) 有限公司,catalog number: 358 2)
- 50x TAE Buffer (翌圣生物科技 (上海) 有限公司,catalog number: 60116ES76)
- 10x Loading Buffer (南京诺唯赞生物科技股份有限公司,catalog number: P022)
- 高保真DNA聚合酶 (南京诺唯赞生物科技股份有限公司,catalog number: P505)
- 逆转录试剂盒 (南京诺唯赞生物科技股份有限公司,catalog number: R323)
- DNA提取试剂盒 (南京诺唯赞生物科技股份有限公司,catalog number: DC102)
- RNA提取试剂盒 (南京诺唯赞生物科技股份有限公司,catalog number: RC101)
- RNA文库构建试剂盒 (南京诺唯赞生物科技股份有限公司,catalog number: NR604)
- 核糖体去除试剂盒 (南京诺唯赞生物科技股份有限公司,catalog number: N406/N407)
- DNA纯化与分选磁珠 (南京诺唯赞生物科技股份有限公司,catalog number: N411)
- RNA纯化磁珠 (南京诺唯赞生物科技股份有限公司,catalog number: N412)
- 双端测序接头试剂盒 (南京诺唯赞生物科技股份有限公司,catalog number: N323/N324)
- DNA定量试剂盒 (南京诺唯赞生物科技股份有限公司,catalog number: EQ121)
- RNA定量试剂盒 (南京诺唯赞生物科技股份有限公司,catalog number: EQ211)
- 高灵敏度DNA试剂盒 (安捷伦科技 (中国) 有限公司,catalog number: 5067-4626)
- 高灵敏度DNA试剂 (安捷伦科技 (中国) 有限公司,catalog number: 5067-4627)
仪器设备
- 移液器 (艾本德 (上海) 国际贸易有限公司)
- 低温台式离心机 (赛默飞世尔科技 (中国) 有限公司)
- 超低温冰箱 (赛默飞世尔科技 (中国) 有限公司)
- 微量分光光度计 (赛默飞世尔科技 (中国) 有限公司)
- Qubit荧光计 (赛默飞世尔科技 (中国) 有限公司)
- 超净台 (北京东联哈尔仪器制造有限公司)
- 研磨仪 (宁波新芝生物科技股份有限公司)
- 琼脂糖凝胶电泳仪 (上海天能科技有限公司)
- 凝胶成像仪 (上海天能科技有限公司)
- 2100生物分析仪 (安捷伦科技 (中国) 有限公司)
- PCR仪 (伯乐生命医学产品 (上海) 有限公司)
注:另需工作站 (型号:DELL Precision T7920;系统:Ubuntu 20.04;CPU: Intel (R) Xeon (R) Gold 6140 CPU @ 2.30 GHz,36核),用于运行相关命令;普通个人电脑,用于调用个人终端、以及访问网页版软件和下载序列。
软件和数据库
- Python v3.8.5
- Miniconda v4.9.2
- FastQC v0.11.9
- Trimmomatic v0.39
- Trinity v2.1.1
- DIAMOND v2.0.4
- ORFfinder v0.4.3
- IBS v1.0.3
- MAFFT v7.453
- trimAL v1.2.rev59
- MEGA 7 v7.0.26
- IQ-TREE 2 v2.1.1
- FigTree v1.4.4
- Cytoscape v3.8.1
实验步骤
一、样品采集
- 依据课题需要收集合适的样品,样品应尽量保证鲜活,或在低温 (4 °C) 环境下妥善保存。如果条件允许,样品在进行解剖前可以在适宜的环境中 (人造海水、生理盐水等) 平衡,以减少采样环境中的杂质污染对后续实验的影响。对采集的样品进行真实、详细的文字记录,并配有图片、视频等。文字记录内容包括但不局限于物种的名称 (物种的鉴定由生态学专业相关人员进行)、采样数量、采样时间、采样地点、形态描述等。
- 在干净的操作台上对样品进行解剖,应使用75%的酒精棉球仔细擦拭操作台面、解剖工具、容器等 (在处理不同物种的样品前,也应该重复此步骤)。在冰上对样品进行解剖,剖取脏器等可能富含病毒的组织,转移至新的、装有RNA稳定和储存溶液 (RNAlater™ Stabilization Solution,Invitrogen公司,AM7020) 的容器内 (试剂应至少没过组织块),并做好样品的标注。同一物种的不同个体,以及同个个体的不同脏器都应该分管储存。每个个体另取少量的肌肉组织于干净的EP管内。所有的样品冻存于-20 °C或-80 °C冰箱保存,按照RNA稳定和储存溶液的官方说明,样品RNA在37 °C条件下可以稳定保存1天,25 °C条件下1周,4 °C条件下1月,-20 °C条件下无期限。
二、物种鉴定
- 所有样品的肌肉组织从冰箱取出于室温解冻,吸水纸上吸干多余水分,切取约20 mg的肌肉组织于新的EP管中。使用DNA提取试剂盒 (FastPure Cell/Tissue DNA Isolation Mini Kit,Vazyme公司,DC102) 提取肌肉组织gDNA:
- 测量DNA浓度并评价其质量,保存于-20 °C冰箱中备用。
- 对样品的细胞色素c氧化酶I基因 (COI基因) 进行PCR扩增和鉴定,使用引物LCO1490:5'-GGTCAACAAATCATAAAGATATTGG-3'和HCO2198:5'-TAAACT TCAGGGTGACCAAAAAATCA-3' (Folmer et al., 1994)。PCR体系使用高保真酶 (Phanta Max Super-Fidelity DNA Polymerase,Vazyme公司,P505)。25 μl的反应体系中含有2x Phanta Max Buffer 12.5 μl,dNTP Mix (10 mM each) 0.5 μl,上游引物LCO1490和下游引物HCO2198各1 μl,Phanta Max Super-Fidelity DNA Polymerase 0.5 μl,上一步中抽提的gDNA 100 ng,用ddH2O补足体积。PCR反应条件:95 °C预变形3 min,35个循环的反应 (95 °C 15 s,54 °C 15 s,72 °C 1 min),72 °C彻底延伸5 min。PCR产物取5 μl,使用2%琼脂糖凝胶电泳进行检测,应在700 bp处有清晰可见的单一条带。对此条带进行回收,送测序公司进行Sanger测序。返回的结果使用NCBI Blastn进行验证,检查物种信息是否正确。
三、文库构建
- 用于建库的组织样品 (浸泡于RNA稳定和储存溶液中),从冰箱取出,于冰上融化,将组织取出并用吸水纸吸干表面液体。使用RNA提取试剂盒 (FastPure Cell/Tissue Total RNA Isolation Kit,Vazyme公司,RC101) 提取组织总RNA (提取过程注意防范RNase污染):
- 用于测序的总RNA样品,从冰箱取出,于冰上融化。使用RNA建库试剂盒 (VAHTS Universal V6 RNA-seq Library Prep Kit for Illumina,Vazyme公司,NR604)、rRNA去除试剂盒 (Ribo-off ® rRNA Depletion Kit (Human/Mouse/Rat),Vazyme公司,N406)、rRNA去除试剂盒 (Ribo-off ® rRNA Depletion Kit (Bacteria),Vazyme公司,N407)、高通量测序接头试剂盒 (VAHTS RNA Multiplex Oligos Set1- Set2 for Illumina,Vazyme公司,N323/N324) 进行建库实验 (Shi et al., 2016; Zhang et al., 2018):
- rRNA残留量检测:
- 文库质检:
- 高通量测序:样品送测序公司,进行高通量测序。
四、RNA病毒的鉴定和分析流程图:
本实验方案使用的RNA病毒的鉴定和分析流程,见图1:

图1 RNA病毒的鉴定和分析流程图
五、数据预处理
- 数据获取:从测序公司获取原始数据 (文件格式为sample.fastq.gz),对照送样信息检查文件是否缺漏。将文件上传至服务器home目录下data文件夹内,使用gzip命令进行解压。
- 数据质检:使用FastQC软件对每个文库的测序数据进行质检,使用命令"fastqc -o fastqc -f fastq *.fastq"。执行此命令前切换至存放fastq文件的路径,并提前创建用于存放质检报告的文件夹fastqc。
- 数据修剪:使用Trimmomatic软件对数据进行修剪和接头去除,使用命令"trimmomatic PE -threads 4 -phred33 sample_R1.fastq sample_R2.fastq sample-1P.fq sample-1U.fq sample-2P.fq sample-2U.fq ILLUMINACLIP:adapter. fa:2:30:10:1:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:50"。其中,测序模式选择双端测序模式,输入R1和R2两个测序结果文件,输出1P、1U、2P、2U四个结果文件,使用adapter.fa文件中记录的adapter信息进行接头去除,从reads的头部和末尾分别切除质量值低于3的碱基,从reads的头部开始进行长度为4的滑窗检查并去除平均质量低于20的滑窗内的所有碱基,去除修剪后长度低于50 nt的reads。
- 从头拼接 (如从公司接收的数据为clean data,可以直接进行此步骤):使用Trinity软件对数据进行从头拼接,使用命令"Trinity --seqType fq --max_memory 50G --left sample-1P.fq --right sample-2P.fq --CPU 12"。其中数据类型选择fastq格式,输入经过修剪的1P、2P文件,依据工作站性能选择合适的内存量和线程数。需要注意的是,Trinity的输出文件夹必须包含有"trinity"字段。
六、RNA病毒鉴定与分析
- 序列准备:将样品名称添加到各条contig名称的前面,用"__"分隔,并删除长度和位置信息,确保contig名称内没有空格和特殊字符。使用cat命令,将所有样品的contig文件合并成一个文件。
- 使用DIAMOND软件,对来自于病毒的contigs序列进行富集:
- 构建filter_list,使用DIAMOND软件,对上一步的contigs序列进行过滤:
- 使用DIAMOND软件,对RNA病毒进行发掘:
- 使用DIAMOND软件,对上一步的contigs序列进行进一步的过滤:
- 使用ORFfinder软件,对上一步的contigs序列进行ORF预测,并将ORF的氨基酸序列保存至新的fasta文件中:ORFfinder -in [input_nu.fasta] -out [output_pr.fasta] -s 0 -ml 150 -n true。
- 使用DIAMOND软件,对上一步的ORF序列进行过滤:
- 使用网页版Batch CD-search,对上一步的ORF序列进行保守结构域的预测,将具有RdRp结构域的ORF序列提取至新的fasta文件里。这些包含有RdRp结构域的序列,即RNA病毒序列,进行后续的分析。
- 从原始的contigs文件中提取RNA病毒对应的核酸序列,针对这些序列分别设计引物。将抽提的总进行反转录,然后使用高保真酶对其进行PCR扩增。琼脂糖凝胶电泳检测条带,并切取对应的条带送公司进行一代测序,用于对高通量测序和从头拼接的验证。对于扩增失败或者测序结果不符合的序列,应予以剔除,不再进行后续的分析。
- 基因组可视化:依据每条contig的长度、开放阅读框、保守结构域,使用IBS软件的Nucleotide模式进行绘图。作图完成后保存工程文件,输出PDF文件。使用AI软件进行进一步的调整和美化。
- 使用NCBI Blast+软件,利用ICTV的数据,对RNA病毒进行物种信息的确定:
- 使用DIAMOND、TBtools、usearch、Mafft、trimAL、iqtree等软件,对RNA病毒按照病毒种类,进行进化学地位的分析:
- 使用Mafft、Mega、Cytoscape软件,对RNA病毒进行跨物种、跨地域传播的分析:
致谢
本实验的经费来源于国家自然科学基金 (31970176),中国科学院以及中科院分子病毒学与免疫学重点实验室基金 (KLMVI-OP-202002),广东省渔业生态环境重点实验室基金 (FEEL-2019-6)。本实验方法改编自Shi等人于2016和2018年发表在Nature上的两篇文章。
参考文献
- Folmer, O., Black, M., Hoeh, W., Lutz, R. and Vrijenhoek, R. (1994). DNA primers for amplification of mitochondrial cytochrome c oxidase subunit I from diverse metazoan invertebrates. Mol Mar Biol Biotechnol 3(5): 294-299.
- Shi, M., Lin, X. D., Tian, J. H., Chen, L. J., Chen, X., Li, C. X., Qin, X. C., Li, J., Cao, J. P., Eden, J. S., Buchmann, J., Wang, W., Xu, J., Holmes, E. C. and Zhang, Y. Z. (2016). Redefining the invertebrate RNA virosphere. Nature 540(7634): 539-543.
- Shi, M., Zhang, Y. Z. and Holmes, E. C. (2018). Meta-transcriptomics and the evolutionary biology of RNA viruses. Virus Res 243: 83-90.
- Simmonds, P., Adams, M. J., Benko, M., Breitbart, M., Brister, J. R., Carstens, E. B., Davison, A. J., Delwart, E., Gorbalenya, A. E., Harrach, B., Hull, R., King, A. M., Koonin, E. V., Krupovic, M., Kuhn, J. H., Lefkowitz, E. J., Nibert, M. L., Orton, R., Roossinck, M. J., Sabanadzovic, S., Sullivan, M. B., Suttle, C. A., Tesh, R. B., van der Vlugt, R. A., Varsani, A. and Zerbini, F. M. (2017). Consensus statement: Virus taxonomy in the age of metagenomics. Nat Rev Microbiol 15(3): 161-168.
- Zhang, Y. Z., Chen, Y. M., Wang, W., Qin, X. C. and Holmes, E. C. (2019). Expanding the RNA virosphere by unbiased metagenomics. Annu Rev Virol 6(1): 119-139.
- Zhang, Y. Z., Shi, M. and Holmes, E. C. (2018). Using metagenomics to characterize an expanding virosphere. Cell 172(6): 1168-1172.