Navigate this Article


 

Taxonomic Classification of Microbes with a Given Function Based on a Specific Functional Gene   

How to cite Favorites Q&A Share your feedback Cited by

摘要:功能微生物是指执行某一特定功能的一类微生物群体。与一般性微生物相比,功能微生物与生态位表型具有更直接的联系,更能反映出生态位的功能变化。因此研究功能微生物多样性,对于解析生态位的功能机制具有重要意义。常用的RDP Classifier等算法无法适用于功能基因物种注释分析,因此本文介绍了基于GraftM的系统发育树原理对功能基因进行物种注释的方法。

关键词: GraftM, 功能微生物, 功能基因, 物种注释

研究背景

微生物多样性分析中,物种注释是最为关键的步骤。对于微生物多样性分析,常使用16S rRNA基因或ITS序列,利用RDP Classifier (Wang et al., 2007) 等通过朴素贝叶斯算法对序列进行物种注释。功能微生物是指执行某一特定功能的一类微生物群体,比如产甲烷微生物、尿素分解微生物、氨氧化微生物、固氮微生物。与一般性微生物相比,功能微生物与生态位表型具有更直接的联系,更能反映出生态位的功能变化。因此研究功能微生物多样性,对于解析生态位的功能机制具有重要意义。功能微生物多样性研究中,常对某些关键功能基因进行测序分析。与16S rRNA基因或ITS基因相比,功能基因常具有多个不同拷贝,难以作为系统发育的标签基因,无法根据基因序列组成和相似特点直接进行物种注释,所以常用的RDP Classifier等算法无法适用于功能基因物种注释分析。GraftM (Boyd et al., 2018) 是用于功能基因注释的优秀软件,它通过对已知功能基因构建系统发育树 (含物种信息),然后将查询功能基因定位到系统发育树,根据树上位置和距离,注释查询功能基因物种信息。本文介绍了基于GraftM进行功能微生物的物种注释。

软件和数据库

  1. Graftm (0.13.1) ( https://pypi.org/project/graftm/)
  2. Bioconda ( https://bioconda.github.io/)

实验步骤

一、安装Graftm程序

通过conda安装:
    conda create -n graftm
    conda activate graftm
    conda install graftm -c bioconda

二、创建与更新功能基因数据库包

  1. 下载功能基因数据
    登录NCBI核酸数据库 (https://www.ncbi.nlm.nih.gov/nuccore),根据功能基因 名称查询序列,下载目标功能基因序列和物种分类信息,分别整理成两个文件 (m arker.genes.fasta和marker.genes.taxonomy.txt) (图1和图2)。
            文件1:参考功能基因文件,marker.genes.fasta,格式为FASTA:


    图 1. 参考功能基因文件格式

            文件2:参考功能基因物种信息文件,marker.genes.taxonomy.txt,文本文件(第一列为ID,第二列为分类信息,两列Tab隔开),格式如下:


    图 2. 参考功能基因物种信息文件格式

            例子:以搜索脲酶基因ureC为例 (Jin et al., 2017)
    1)
    登录NCBI核酸数据库,输入关键词"ureC",检索后出现所有包含ureC基因的序列或基因组。点击需要下载的序列,进入信息页 (图3)。


    图 3. NCBI 核酸数据库,需要下载序列信息页

    2)
    找到ureC基因所在的编码位置,本例中是1-1710 (图4)。


    图 4. ureC 基因所在的编码位置

    3)
    鼠标滑轮上滑后,在"Change region shown"那里输入1-1710,点击update view (图5)。


    图 5. "Change region shown" 界面

    4)
    保存ORGANISM信息 (图6)。


    图 6. ORGANISM 信息界面

    5)
    点击显示方式为FASTA,将FASTA格式序列保存 (图7)。


    图 7. 保存FASTA格式

    6)
    将所有下载的ureC基因FASTA序列复制到一个文件中,物种分类信息复制到另一个文件中。
    两个文件格式为 (图8和图9):
            文件1:参考功能基因文件,格式为FASTA:


    图8. 参考功能基因文件

            文件2:参考功能基因物种信息文件,文本文件 (第一列为ID,第二列为 分类信息,两列Tab隔开):


    图 9. 参考功能基因物种信息文件

  2. 创建功能基因数据库包
    运行程序:
    graftM create --sequences marker.genes.fasta --taxonomy marker.genes.taxonomy.txt --output marker.genes.gpkg (图10):


    图10. 运行结果

    graftM create参数:
    --sequences;参考功能基因序列文件,必选
    --taxonomy;参考功能基因物种信息文件,必选
    --alignment;比对后文件,如果有可提交,以减少运行时间
    --hmm;HMM文件,如果有可提交,以减少运行时间
    --tree;newick格式的系统发育树文件,同时提供log文件
    --tree_log;系统发育树的log文件
    --output;输出文件夹
    --threads;线程数
    --graftm_package;需要更新的旧数据库包,仅更新数据库包时使用
  3. 更新数据库包
    如果新下载功能基因需要补充到数据库中,则需要更新数据库包。
    运行程序:
    graftM create --graftm_package marker.genes.gpkg --sequences marker.genes.new.fasta --taxonomy marker.genes.new.taxonomy.txt --output marker.genes.updated.gpkg

三、功能基因物种注释

运行程序:
graftM graft --forward query.fasta --graftm_package marker.genes.gpkg/ --output_directory query.graftm
           graftM graft参数:
           --forward;查询功能基因序列,fasta格式,必选
           --graftm_package;构建好的数据库包,必选
           --output;输出文件夹
           --threads;线程数 (默认5)
           --placements_cutoff confidence;置信截取值 (默认0.75)

结果与分析

导出文件夹query.graftm中query文件夹中query_read_tax.tsv文件。第一列为OTU (Feature) 编号,第二列为分类信息,如下所示 (图11):


11. 运行结果

致谢

感谢中国农业科学院创新工程 (ASTIP-IAS12) 支持。

参考文献

  1. Wang, Q., Garrity, G. M., Tiedje, J. M. and Cole, J. R. (2007). Naïve Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy. Appl Environ Microbiol 73: 5261-5267.
  2. Boyd, J. A., Woodcroft, B. J. and Tyson, G. W. (2018). GraftM: a tool for scalable, phylogenetically informed classification of genes within metagenomes. Nucleic Acids Res 46(10): e59.
  3. Jin, D., Zhao, S., Zheng, N., Bu, D., Beckers, Y., Denman, S. E., McSweeney, C. S. and Wang, J. (2017). Differences in ureolytic bacterial composition between the rumen digesta and rumen wall based on urec gene classification. Front Microbiol 8: 385.
Please login or register for free to view full text
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:赵圣国. (2021). 基于GraftM对功能基因进行物种注释. Bio-101: e2104000. DOI: 10.21769/BioProtoc.2104000.
How to cite: Zhao, S. G. (2021). Taxonomic Classification of Microbes with a Given Function Based on a Specific Functional Gene. Bio-101: e2104000. DOI: 10.21769/BioProtoc.2104000.
Categories
Q&A
By submitting a question/comment you agree to abide by our Terms of Service. If you find something abusive or that does not comply with our terms please contact us at eb@bio-protocol.org.

If you have any questions/comments about this protocol, you are highly recommended to post here. We will invite the authors of this protocol as well as some of its users to address your questions/comments. To make it easier for them to help you, you are encouraged to post your data including images for the troubleshooting.

If you have any questions/comments about this protocol, you are highly recommended to post here. We will invite the authors of this protocol as well as some of its users to address your questions/comments. To make it easier for them to help you, you are encouraged to post your data including images for the troubleshooting.

We use cookies on this site to enhance your user experience. By using our website, you are agreeing to allow the storage of cookies on your computer.