从头组装
在目标物种或其近缘物种的参考基因组缺失,或者参考基因组的质量较差时 (例如相关基因缺失或不完整),可以使用从头组装的分析方案。
从头组装常用的算法以
de Bruijn Graph (DBG) 理论为依据,把测序序列拆分成特定长度的短片段 (称为kmer) 来构建DBG图,然后通过"解图"来获得基因序列以及其不同的转录本。DBG也被广泛应用于基因组组装软件中,但是基因组组装软件假设基因组的不同位置具有基本一致的测序深度。而转录本组装软件必须考虑到不同基因、甚至同一个基因的不同可变剪接体的表达量差异。广泛使用的转录本组装软件有Trinity (Grabherr
et al., 2011)、Oases (Schulz
et al., 2012)、IDBA-Tran (Peng
et al., 2013)、SOAPdenovo-trans (Xie
et al., 2014) 等。Kmer的大小决定了不同节点之间的重叠长度,该重叠长度对组装结果的质量有重要影响。一般情况下,推荐使用较大的kmer,从而获得高质量的转录本组装结果。但过大的kmer不利于低表达量转录本的组装。较小的kmer可以更有效地获取低表达量的转录本,但同时会导致组装结果碎片化。因此,一些研究(例如De Vries
et al., 2017; Robertson
et al., 2017) 也尝试使用多个kmer大小进行转录本组装,最后把不同的结果进行整合,相关工具有Trans-ABySS (Robertson
et al., 2010)、Multiple-k (Surget-Groba and Montoya-Burgos, 2010) 和Rnnotator (Martin
et al., 2010) 等。在1KITE昆虫转录组演化 (The 1K Insect Transcriptome Evolution Project;
https://1kite.org/) 研究中 (Misof
et al., 2014),首先利用SOAPdenovo-trans (Xie
et al., 2014) 进行转录组组装,组装时参数kmer设置为31,-e参数设置为3;再利用补洞软件GapCloser (Luo
et al., 2012) 使用默认参数进行补洞。