仪器设备
- (可选) 推荐使用计算服务器 (操作系统:Linux主流发行版本,如CentOS 7+/Ubuntu 16.04+;CPU:4核+;内存:16G+;硬盘:> 10 GB,且大于原始数据大小3倍) ,网络访问畅通。
- 个人电脑推荐Windows 10系统,内存8G+。先在应用商店中安装Linux子系统 (如Ubuntu 20.04 LTS) ,然后安装QIIME 2;也可使用VirtualBox虚拟机运行QIIME 2镜像,但效率较低不推荐使用;Mac系统可直接安装QIIME 2。(可选) Windows用户远程访问服务器需安装XShell或Putty等终端类软件,Mac使用系统内置终端即可远程访问计算服务器。
软件和数据库
- QIIME 2可运行的四种环境任选其一:Linux服务器 (推荐,适合大数据) 、Windows 10子系统Ubutnu 20.04 LTS (推荐,适合小数据) 、Windows中VirtualBox虚拟机中运行Ubutnu 20.04 LTS (不推荐,小数据集且效率低) 、Mac系统 (不推荐,兼容性问题较多)
- 软件管理器Miniconda3 Linux 64-bit (Python 3.8) :https://conda.io/miniconda.html
- QIIME 2 (Bolyen et al., 2019) https://docs.qiime2.org/
- GreenGenes 13.8 (McDonald et al., 2011) 物种分类数据库:ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
- 流程示例参考代码和结果文件详见:https://github.com/YongxinLiu/MicrobiomeProtocol/blob/master/e2.QIIME2/,如示例代码为QIIME2_Pipeline.sh
- (可选) 远程文件传输工具FileZilla客户端3.49.1+:https://filezilla-project.org/
- (可选) Windows远程访问服务器终端工具Xshell 6.0.0197p+:https://www.netsarang.com/zh/free-for-home-school/
- (可选) R语言环境,下载适合自己系统的安装包 (版本:4.0.2+):https://www.r-project.org/
- (可选) R语言开发环境RStudio,用于执行流程,下载适合自己系统的安装包(版本:1.3.1056+):https://www.rstudio.com/products/rstudio/download/#download
软件安装和数据库部署
QIIME 2不支持在Windows系统下直接安装。我们主要介绍远程访问Linux服务器和Windows 10下安装Linux子系统并使用QIIME 2的两种方法,任选其一即可。
方法1. 远程访问Linux服务器:Windows/Mac用户安装FileZilla客户端,用于上传测序数据至服务器或数据中心,也可用于下载分析结果本地查看。Windows用户安装Xshell用于远程访问服务器并开展分析,Mac用户可使用系统自带Terminal中的ssh命令远程访问服务器。
方法2. Windows 10的1609以后的版本可以安装Linux子系统:开始→Microsoft Store→搜索“Ubuntu”→选择“Ubuntu 20.04 LTS”→安装。安装前的系统设置和常见问题请阅读《Windows10安装Linux子系统Ubuntu 20.04LTS》。安装成功后可以在开始中启动“Ubuntu 20.04 LTS”的命令行,也可选在RStudio中设置默认Terminal为“Bash (Windows Subsystem for Linux) ”,打开新终端即可使用。
视频1. Windows 10中应用商店安装Ubuntu 20.04 LTS
在Linux系统下,以Miniconda3软件和Python3虚拟环境安装QIIME 2流程;然后下载16S rRNA基因数据库,建立物种分类器。
注:下文代码行添加灰色底纹背景,其中需要根据系统环境修改的部分标为蓝色。
视频2. Conda安装QIIME 2和训练分类器
- 安装Miniconda3 Linux 64-bit (已安装请跳过)
wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
~/miniconda3/bin/conda init - 下载QIIME 2流程安装软件列表
直接wget下载,但有时无法下载,详见常见问题1。
wget -c https://data.qiime2.org/distro/core/qiime2-2021.2-py36-linux-conda.yml - Conda新建环境安装QIIME 2
conda env create -n qiime2-2021.2 --file qiime2-2021.2-py36-linux-conda.yml
进入工作环境
conda activate qiime2-2021.2 - GreenGenes数据库下载并导入
下载数据库文件 (greengenes) ,无法下载或下载慢见常见问题2
wget -c ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
解压
tar -zxvf gg_13_8_otus.tar.gz
使用rep_set文件中的99_otus.fasta数据和taxonomy中的99_OTU_taxonomy.txt数据作为参考物种注释。
导入参考序列
qiime tools import \
--type 'FeatureData[Sequence]' \
--input-path gg_13_8_otus/rep_set/99_otus.fasta \
--output-path 99_otus.qza
导入物种分类信息
qiime tools import \
--type 'FeatureData[Taxonomy]' \
--input-format HeaderlessTSVTaxonomyFormat \
--input-path gg_13_8_otus/taxonomy/99_otu_taxonomy.txt \
--output-path ref-taxonomy.qza - 训练分类器—全长 (通用) ,耗时约半小时
time qiime feature-classifier fit-classifier-naive-bayes \
--i-reference-reads 99_otus.qza \
--i-reference-taxonomy ref-taxonomy.qza \
--o-classifier classifier_gg_13_8_99.qza
如果提示版本错误,详见常见问题3。 - (可选) 训练分类器—指定V区分类器
如果扩增了指定的16S区域,还可以构建特异区域的分类器,可进一步提高分类精度。常用GreenGenes 13_8按99%聚类操作分类单元 (Operational taxonomic units, OTUs) 序列中的V4区域 (341F CCTACGGGNGGCWGCAG/805R GACTACHVGGGTATCTAATCC) 构建分类器。确定此处使用的引物与扩增引物保持一致。
本次使用与测试数据对应的V5 (799F) - V7 (1193R) 引物为例进行提取序列,耗时约9分钟。
time qiime feature-classifier extract-reads \
--i-sequences 99_otus.qza \
--p-f-primer AACMGGATTAGATACCCKG \
--p-r-primer ACGTCATCCCCACCTTCC \
--o-reads ref-seqs.qza
基于筛选的指定区段,生成实验特异的分类器,耗时约8分钟。
time qiime feature-classifier fit-classifier-naive-bayes \
--i-reference-reads ref-seqs.qza \
--i-reference-taxonomy ref-taxonomy.qza \
--o-classifier classifier_gg_13_8_99_V5-V7.qza
实验步骤