使用QIIME 2分析微生物组16S rRNA基因扩增子测序数据

刘永鑫; 陈同; 钱旭波; 白洋

doi:10.21769/BioProtoc.2003554

Improve Research Reproducibility A Bio-protocol resource

使用QIIME 2分析微生物组16S rRNA基因扩增子测序数据

Using QIIME 2 to Analysis Amplicon Sequencing of 16S rRNA Gene in Microbiome

*Contributed equally to this work 发表时间: 2021年04月25日 DOI: 10.21769/BioProtoc.2003554 浏览次数: 17915

返回专辑目录

PDF

提问与回复

引用

被引用

摘要：QIIME是目前微生物组扩增子分析领域使用最广泛的流程 (软件) ，论文发表10年已经被引用超2万次。虽然QIIME的推出在微生物组数据分析领域具有里程碑意义，但是该流程已经无法满足快速发展的微生物组数据分析需求。全新开发的QIIME 2流程采用Python 3编写，它结合最新算法、提供交互式图表、插件可扩展性强、能更好地满足当前大数据和可重复分析的要求。然而，QIIME 2无法在主流的Windows系统下直接运行，且用户说明文档长达10多万字，对缺少生物信息背景的研究人员来说，学会使用这样的流程仍然是个巨大挑战。本文将介绍软件安装方法和标准分析流程，方便同行快速上手使用QIIME 2流程；我们对使用过程的中间步骤和参数进行解读，帮助用户掌握参数优化方法，以获得更合理的结果；同时对软件安装和使用过程中的常见问题和解决方案进行总结。本文介绍的微生物组分析指标和方法具体包括数据导入导出、特征表生成、alpha和beta多样性分析、物种组成分析、差异物种分析以及数据可视化等。本文提供配套视频、分析代码、测序数据和预期结果，以方便同行学习和复现本文的分析过程。

Keywords: 微生物组

仪器设备

(可选) 推荐使用计算服务器 (操作系统：Linux主流发行版本，如CentOS 7+/Ubuntu 16.04+；CPU：4核+；内存：16G+；硬盘：> 10 GB，且大于原始数据大小3倍) ，网络访问畅通。
个人电脑推荐Windows 10系统，内存8G+。先在应用商店中安装Linux子系统 (如Ubuntu 20.04 LTS) ，然后安装QIIME 2；也可使用VirtualBox虚拟机运行QIIME 2镜像，但效率较低不推荐使用；Mac系统可直接安装QIIME 2。(可选) Windows用户远程访问服务器需安装XShell或Putty等终端类软件，Mac使用系统内置终端即可远程访问计算服务器。

软件和数据库

QIIME 2可运行的四种环境任选其一：Linux服务器 (推荐，适合大数据) 、Windows 10子系统Ubutnu 20.04 LTS (推荐，适合小数据) 、Windows中VirtualBox虚拟机中运行Ubutnu 20.04 LTS (不推荐，小数据集且效率低) 、Mac系统 (不推荐，兼容性问题较多)
软件管理器Miniconda3 Linux 64-bit (Python 3.8) ：https://conda.io/miniconda.html
QIIME 2 (Bolyen et al., 2019) https://docs.qiime2.org/
GreenGenes 13.8 (McDonald et al., 2011) 物种分类数据库：ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
流程示例参考代码和结果文件详见：https://github.com/YongxinLiu/MicrobiomeProtocol/blob/master/e2.QIIME2/，如示例代码为QIIME2_Pipeline.sh
(可选) 远程文件传输工具FileZilla客户端3.49.1+：https://filezilla-project.org/
(可选) Windows远程访问服务器终端工具Xshell 6.0.0197p+：https://www.netsarang.com/zh/free-for-home-school/
(可选) R语言环境，下载适合自己系统的安装包（版本：4.0.2+）：https://www.r-project.org/
(可选) R语言开发环境RStudio，用于执行流程，下载适合自己系统的安装包（版本：1.3.1056+）：https://www.rstudio.com/products/rstudio/download/#download

软件安装和数据库部署

QIIME 2不支持在Windows系统下直接安装。我们主要介绍远程访问Linux服务器和Windows 10下安装Linux子系统并使用QIIME 2的两种方法，任选其一即可。
方法1. 远程访问Linux服务器：Windows/Mac用户安装FileZilla客户端，用于上传测序数据至服务器或数据中心，也可用于下载分析结果本地查看。Windows用户安装Xshell用于远程访问服务器并开展分析，Mac用户可使用系统自带Terminal中的ssh命令远程访问服务器。
方法2. Windows 10的1609以后的版本可以安装Linux子系统：开始→Microsoft Store→搜索“Ubuntu”→选择“Ubuntu 20.04 LTS”→安装。安装前的系统设置和常见问题请阅读《Windows10安装Linux子系统Ubuntu 20.04LTS》。安装成功后可以在开始中启动“Ubuntu 20.04 LTS”的命令行，也可选在RStudio中设置默认Terminal为“Bash (Windows Subsystem for Linux) ”，打开新终端即可使用。

视频1. Windows 10中应用商店安装Ubuntu 20.04 LTS

在Linux系统下，以Miniconda3软件和Python3虚拟环境安装QIIME 2流程；然后下载16S rRNA基因数据库，建立物种分类器。
注：下文代码行添加灰色底纹背景，其中需要根据系统环境修改的部分标为蓝色。

视频2. Conda安装QIIME 2和训练分类器

安装Miniconda3 Linux 64-bit (已安装请跳过)
wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
~/miniconda3/bin/conda init
下载QIIME 2流程安装软件列表
直接wget下载，但有时无法下载，详见常见问题1。
wget -c https://data.qiime2.org/distro/core/qiime2-2021.2-py36-linux-conda.yml
Conda新建环境安装QIIME 2
conda env create -n qiime2-2021.2 --file qiime2-2021.2-py36-linux-conda.yml
进入工作环境
conda activate qiime2-2021.2
GreenGenes数据库下载并导入
下载数据库文件 (greengenes) ，无法下载或下载慢见常见问题2
wget -c ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
解压
tar -zxvf gg_13_8_otus.tar.gz
使用rep_set文件中的99_otus.fasta数据和taxonomy中的99_OTU_taxonomy.txt数据作为参考物种注释。
导入参考序列
qiime tools import \
    --type 'FeatureData[Sequence]' \
    --input-path gg_13_8_otus/rep_set/99_otus.fasta \
    --output-path 99_otus.qza
导入物种分类信息
qiime tools import \
    --type 'FeatureData[Taxonomy]' \
    --input-format HeaderlessTSVTaxonomyFormat \
    --input-path gg_13_8_otus/taxonomy/99_otu_taxonomy.txt \
    --output-path ref-taxonomy.qza
训练分类器—全长 (通用) ，耗时约半小时
time qiime feature-classifier fit-classifier-naive-bayes \
    --i-reference-reads 99_otus.qza \
    --i-reference-taxonomy ref-taxonomy.qza \
    --o-classifier classifier_gg_13_8_99.qza
如果提示版本错误，详见常见问题3。
(可选) 训练分类器—指定V区分类器
如果扩增了指定的16S区域，还可以构建特异区域的分类器，可进一步提高分类精度。常用GreenGenes 13_8按99%聚类操作分类单元 (Operational taxonomic units, OTUs) 序列中的V4区域 (341F CCTACGGGNGGCWGCAG/805R GACTACHVGGGTATCTAATCC) 构建分类器。确定此处使用的引物与扩增引物保持一致。
        本次使用与测试数据对应的V5 (799F) - V7 (1193R) 引物为例进行提取序列，耗时约9分钟。
time qiime feature-classifier extract-reads \
    --i-sequences 99_otus.qza \
    --p-f-primer AACMGGATTAGATACCCKG \
    --p-r-primer ACGTCATCCCCACCTTCC \
    --o-reads ref-seqs.qza
基于筛选的指定区段，生成实验特异的分类器，耗时约8分钟。
time qiime feature-classifier fit-classifier-naive-bayes \
    --i-reference-reads ref-seqs.qza \
    --i-reference-taxonomy ref-taxonomy.qza \
    --o-classifier classifier_gg_13_8_99_V5-V7.qza

实验步骤

引用格式：刘永鑫, 陈同, 钱旭波, 白洋. (2021). 使用QIIME 2分析微生物组16S rRNA基因扩增子测序数据. // 微生物组实验手册. Bio-101: e2003554. DOI: 10.21769/BioProtoc.2003554.

下载引用格式

How to cite: Liu, Y. X., Chen, T. Qian, X. B. and Bai, Y. (2021). Using QIIME 2 to Analysis Amplicon Sequencing of 16S rRNA Gene in Microbiome. // Microbiome Protocols eBook. Bio-101: e2003554. DOI: 10.21769/BioProtoc.2003554.

Download Citation in RIS Format

分类

您对这篇实验方法有问题吗？

在此处发布您的问题，我们将邀请本文作者来回答。同时，我们会将您的问题发布到Bio-protocol Exchange，以便寻求社区成员的帮助。

发布问题

0 Q&A