仪器设备
个人电脑/服务器 (操作系统:Windows 10/Mac OS 10.12+/Linux Ubuntu 18.04+;CPU:2核+;内存:8G+;硬盘:> 10 GB,且大于10倍原始数据大小),网络访问畅通。
软件和数据库
- R语言环境,下载适合自己系统的4.0.2版:https://www.r-project.org/
- R语言开发环境,用于执行流程,下载适合自己系统的RStudio 1.3.1056:https://www.rstudio.com/products/rstudio/download/#download
- (可选) 仅Windows系统安装,提供Git Bash命令行环境的GitForWidnows 2.28.0:http://gitforwindows.org/
- 扩增子分析流程USEARCH v10.0.240 (Edgar, 2010) https://www.drive5.com/usearch/download.html
- 扩增子分析流程VSEARCH v2.15.0 (Rognese et al., 2016) https://github.com/torognes/vsearch/releases
- 易扩增子流程EasyAmplicon v1.10 (Zhang et al., 2018 and 2019; Chen et al., 2019; Huang et al., 2019; Liu et al., 2020; Qia et al., 2020a and 2020b):https://github.com/YongxinLiu/EasyAmplicon
- 核糖体数据库RDP v16 (Cole et al., 2014):http://rdp.cme.msu.edu/
- (可选) 核糖体数据库GreenGene数据库(gg) 13_8 (McDonald et al., 2011):ftp://greengenes.microbio.me/greengenes_release
- (可选) 核糖体数据库SILVA v123 (Quast et al., 2013):http://www.arb-silva.de
- (可选) 转录间隔区(ITS)数据库UNITE v8.2 (Nilsson et al., 2019):https://unite.ut.ee/
- (可选) Windows版下载工具wget:http://gnuwin32.sourceforge.net/packages/wget.htm
软件安装和数据库部署
注:以下的软件安装和使用均在64位Windows 10系统中演示,Linux/Mac中不同的地方会有说明,流程代码提供有Mac版本 (pipeline_mac.sh)。
Windows系统需要安装GitForWindows (http://gitforwindows.org/) 提供Git bash环境支持常用Shell命令。Linux/Mac系统自带Bash命令行工作环境。
以64位Windows 10系统为例,我们先安装R/RStudio软件,再把本流程 (EasyAmplicon/目录) 保存于C盘中,然后根据需要下载数据库至指定目录即完成部署。
注:代码行添加灰色底纹背景,其中需要根据系统环境修改的部分标为蓝色。
- 流程运行环境R和RStudio
依次安装适合系统的最新版R语言 (https://www.r-project.org) 和RStudio (https://www.rstudio.com/products/rstudio/download/)。注意操作系统用户名不要使用中文,否则会影响R语言使用。
- 批量安装依赖R包
流程会调用数百个R包,使用时可自动安装。但由于网络或系统等个性原因经常出现下载或安装失败,可以使用中根据提示手动安装缺失R包。本文推荐直接下载我们预编译好的R包合辑 (http://nmdc.cn/datadownload),替换至R包所在目录即可,详见常见问题1。
- 易扩增子流程EasyAmplicon
访问https://github.com/YongxinLiu/EasyAmplicon,选择Code—Download ZIP下载并解压,如保存于C盘并确保目录名为EasyAmplicon。如在RStudio的Terminal中可使用git下载流程:
git clone git@github.com:YongxinLiu/EasyAmplicon.git
- (可选) 扩增子流程依赖软件
EasyAmplicon依赖的Windows/Mac/Linux版本软件已经保存于EasyAmplicon中的win/mac/linux目录中,如果出现问题,可按如下方法手动安装。
USEARCH下载页https://www.drive5.com/usearch/download.html,选择适合自己系统的10.0.240版本 (不要下载最新版,因为有更多功能使用受限),如Windows版本保存至EasyAmplicon目录中的win目录中,解压后改名为usearch.exe。Linux/Mac系统需下载到环境linux/mac目录,解压后改名为usearch,并添加可执行权限(chmod +x usearch)。VSEARCH下载页面https://github.com/torognes/vsearch/releases,选择适合自己系统的最新版下载,接下来操作与USEARCH类似。Windows系统还需下载wget程序(http://gnuwin32.sourceforge.net/packages/wget.htm) 至win目录。
- (可选) 16S核糖体基因物种注释数据库
16S扩增子测序分析,常用RDP/SILVA/GreenGene数据库进行物种注释,可以从上述数据库官网下载并整理为USEARCH使用的格式,此处推荐从USEARCH官网 (http://www.drive5.com/sintax) 下载USEARCH兼容格式的数据库。默认流程使用体积小巧的RDP v16数据库 (rdp_16s_v16_sp.fa.gz),并已保存于usearch目录中。可选GreenGenes 13.5 (gg_16s_13.5.fa.gz)和SILVA (silva_16s_v123.fa.gz) 数据库,可根据需要下载并保存于usearch目录中。此外,如果要开展PICRUSt和Bugbase功能预测分析,还需要使用GreenGenes数据库13.5中按97%聚类的OTU序列 (己保存于流程gg目录中97_otus.fas ta.gz)。可选手动下载GreenGenes官方数据库 (ftp://greengenes.microbio.me/g reengenes_release),解压后选择其中的97_otus.fasta保存于gg目录下即可。
- (可选) ITS物种注释数据库
如果研究真菌或真核生物采用转录间隔区 (Intergenic Transcribed Spacer) 测序,需要使用UNITE数据库,目前最新版已经保存于usearch目录(utax_reference_dataset_all_04.02.2020.fasta.gz)。如流程中数据库没有及时更新,可在UNITE官网 (https://unite.ut.ee/) 下载最新版适合USEARCH的注释数据库。官方数据库存在格式问题,详细常见问题2。
实验步骤
引用格式:刘永鑫, 陈同, 周欣, 白洋. (2021). 易扩增子:易用、可重复和跨平台的扩增子分析流程. // 微生物组实验手册.
Bio-101: e2003641. DOI:
10.21769/BioProtoc.2003641.
下载引用格式
How to cite: Liu, Y. X., Chen, T., Zhou, X. and Bai, Y. (2021). EasyAmplicon: An Easy-to-use, Reproducible and Cross-platform Pipeline for Amplicon Analysis. // Microbiome Protocols eBook.
Bio-101: e2003641. DOI:
10.21769/BioProtoc.2003641.
Download Citation in RIS Format