高通量质谱数据库建立及应用——以内源性代谢组学研究为例

摘要:代谢组学是研究生物体受外部刺激后所产生的所有代谢物变化的科学,能够全面揭示生物体受到扰动后机体代谢网络的变化。现有的代谢组学方法在数据库数据方面,数据来源众多,数据质量参差不齐,鉴定结果准确度和数据处理速度上受各实验室仪器状态和数据采集方法影响很大,通量有进一步提升的空间。本实验采用高分辨质谱对600余种内源性代谢物标准品逐一进行色谱和质谱数据采集,手动确认和标注信息后,录入数据库并导入Compound discover等数据处理软件进行快速、高通量的代谢组学数据处理。化合物鉴定标准方面,在进行质量偏差和二级质谱 (MS2) 碎片信息匹配的基础上,加入色谱保留时间作为高维度确证指标,降低了化合物鉴定的假阳性率。该数据库的建立和应用提高了代谢组学方法化合物鉴定的准确度,缩短了数据分析流程,可用于药物靶点发现、药理病理研究、疾病诊断等。

关键词: 高分辨质谱, 数据库, 代谢组学, 高通量

材料与试剂

  1. 1.5 ml 离心管 (Axygen, catalog number: MCT-150-C)
  2. Mass Spectrometry Metabolite Library内源性代谢物标准品库 (IROA Technologies, MSMLS)
  3. 甲醇 (Thermo Fisher, catalog number: A452-4)
  4. 乙腈 (Thermo Fisher, catalog number: A998-4)
  5. 异丙醇 (Thermo Fisher, catalog number: A451-4)
  6. 甲酸 (Thermo Fisher, catalog number: A117-50,质谱级,纯度>99.5%)
  7. 乙酸铵 (Thermo Fisher, catalog number: AM9070G,质谱级,纯度>99%)
  8. 去离子水 (制备自Milli Q Advantage A10超纯水机,电阻率为18.2MΩ·cm)

仪器设备

  1. Q Exactive Plus Orbitrap高分辨液质联用仪,配有U3000超高效液相色谱及自动进样器 (Thermo Fisher, catalog number: 16029108)
  2. Vortex-2 Genie 涡旋混合器 (Scientific Industries)
  3. 5810R低温离心机 (Eppendorf)
  4. WD-9415C型超声波清洗器 (北京市六一仪器厂)
  5. ACQUITY UPLC HSS T3色谱柱,2.1 × 100 mm,1.8 μm (Waters)
  6. BEH Amide 色谱柱,2.1 × 100 mm,1.7 μm (Waters)
  7. mzVault 2.2软件 (Thermo Fisher)
  8. Compound discover 3.2软件 (Thermo Fisher)

实验步骤

  1. 样品制备
    采用IROA Technologies公司的Mass Spectrometry Metabolite
    Library内源性代谢物标准品库进行高分辨质谱数据库建立,该高覆盖度代谢物标准品库包括了大多数内源性代谢物及中间体,覆盖关键代谢通路,包括了有机酸,氨基酸,生物胺,聚胺类,核苷酸,辅酶,维生素,单糖,二糖,脂肪酸,脂质,类固醇,激素等,共634种,纯度均> 95%,储存形式为7个96孔板 (包括38个空白孔),每孔中包括5 μg化合物标准品,其中1-5号板为亲水性高极性代谢物,6号板为中等极性代谢物,7号板为脂溶性低极性代谢物,根据不同化合物的溶解性设计样品制备方案如下,化合物具体信息整理如附表1所示。
    1)
    对于1-5号96孔板,1号板A1~A12,3号板H1~H12,4号板H1~H12为空白孔,向其余孔中各加入10 μl甲醇,涡旋混匀3 min,再加入90 μl 5%甲醇水溶液 (v:v;甲醇:水 = 5:95),涡旋混匀3 min。按顺序从每孔中取5 μl上述溶液,从1号板B1孔位开始,每6个孔为一个混合样品进行混匀,并标记为Plate1-1,Plate1-2,Plate1-3…Plate1-14,Plate2-1,Plate2-2…Plate2-14,Plate3-1,Plate3-2…Plate3-14,以此类推,混合后再进行3 min的涡旋混匀,14,000 × g离心5 min后,取上清20 μl置于进样瓶中,取5 μl进样LC-MS分析。
    2)
    对于6号96孔板,H1~H12为空白孔,向其余孔中加入100 μl 40%甲醇水溶液 (v:v;甲醇:水 = 40:60),涡旋混匀3 min。按顺序从每孔中取5 μl上述溶液,每6个孔为一个混合样品进行混匀,并标记为Plate6-1,Plate6-2,Plate6-3…Plate6-14,混合后再进行3 min的涡旋混匀,14,000 × g离心5 min后,取上清20 μl置于进样瓶中,取5 μl进样LC-MS分析。
    3)
    对于7号96孔板,G4~G12,H1~H12均为空白孔,向其余孔中加入20 μl 50%乙腈异丙醇溶液 (v:v;乙腈:异丙醇 = 50:50),涡旋3 min,再向每孔中加入30 μl去离子水,涡旋3 min。按顺序从每孔中取5 μl上述溶液,每6个孔为一个混合样品进行混匀,并标记为Plate7-1,Plate7-2,Plate7-3…Plate7-13,混合后再进行3 min的涡旋混匀,14,000 × g离心5 min后,取上清20 μl置于进样瓶中,取5 μl进样LC-MS分析。
  2. 质谱数据采集
    针对不同极性和性质的化合物,分为反相液相色谱 (Reversed-phase liquid chromatography, RPLC) 和亲水作用色谱 (Hydrophilic interaction liquid chromatography, HILIC) 两种色谱体系进行质谱数据采集,并记录保留时间。
    1)
    色谱条件1 (HILIC体系,针对极性小分子内源性代谢物):
    色谱柱:Waters BEH Amide Column (2.1 × 100 mm, 1.7 μm)
    柱温:35 °C
    进样体积:5 μl
    流速:0.3 ml/min
    流动相:A (去离子水,含0.1%甲酸和10 mM乙酸铵);B (乙腈,含0.1%甲酸),梯度洗脱。具体梯度洗脱条件如表1所示:

    表1. HILIC体系的梯度洗脱条件
    Time (min) A (V%) B (V%)
    0 0 100
    5 0 100
    6 25 75
    15 25 75
    16 50 50
    25 50 50
    26 0 100
    27 0 100

    2)
    色谱条件2 (RPLC体系,针对脂质、糖类等低极性代谢物)
    色谱柱:ACQUITY UPLC HSS T3柱 (2.1 × 100 mm, 1.8 μm)
    柱温:35 °C
    进样体积:5 μl
    流速:0.3 ml/min
    流动相:A (去离子水,含0.1%甲酸);B (乙腈,含0.1%甲酸),梯度洗脱。具体梯度洗脱条件如表2所示:

    表2. RPLC体系的梯度洗脱条件
    Time (min) A (V%) B (V%)
    0 98 2
    9 40 60
    18 40 60
    20 0 100
    27 0 100
    29 98 2
    35 98 2

    3)
    质谱条件
    离子源:ESI源,采用正/负离子扫描模式;
    所使用的各种气路均为氮气 (纯度大于99.99%);
    离子源参数如表3所示,质谱扫描模式及参数如表4所示:

    表3. 离子源参数
    Sheath gas flow rate (L/min) 40
    Aux gas flow rate (L/min) 15
    Sweep gas flow rate (L/min) 0
    Spray voltage (kV) ±3.5
    Capillary temp. (°C) 350
    S-lens RF level 55
    Aux gas heater temp. (°C) 350

    表4. 质谱扫描模式及参数
    Scan type Full MS-ddMS2
    Scan range 75 to 1200
    Full MS
    Resolution 70000
    AGC target 1e6
    dd-MS2/dd-SIM (数据依赖的MS1丰度触发的MS2扫描)
    Resolution 17500
    AGC target 1e5
    TopN 5
    NCE 30,40,50
    dd Settings
    Minimum AGC target 6e3
    Intensity threshold 1.2e5

        对于每个化合物,均进行正负扫描,并选择30、40、50 eV三种碰撞能分别记录不同碎裂电压下的二级质谱信息。

  3. 高通量内源性代谢物数据库信息录入
    采用Mzvault 2.2和Xcalibur Qual Browser软件进行原始数据处理及数据库信息录入。具体步骤如下,同时附有视频演示。
    1)
    打开mzVault 2.2软件,点击Bulid标签,单击New,命名数据库名称。单击New Compound list标签,建立化合物列表,如图1所示,按提示依次输入化合物名称、原始Raw文件位置、分子式、质谱加合物信息 (如+H、+NH4、+Na、-H等)、电荷数 (默认为1)、极性 (正离子模式或负离子模式)、Mol结构文件、化合物类别 (Compound Class)、CAS ID、HMDB ID及KEGG ID,上述信息已整理在附表1中,将化合物信息依次输入至Compound list中,每个96孔板生成一个Compound list,并进行质谱信息录入。


    图1. Compound list录入界面

    视频1. mzVault软件的操作演示

    2)
    如图2所示,点击Compound list标签下的Selection Parameters选项,在弹出对话框中选择"Retrieve one spectrum for each unique collision energy",在Precursor Tolerance阈值中设置5 ppm,点击OK。


    图2. Spectrum Selection Parameters设置界面

    3)
    点击Threshold和Recalibrate按钮,分别进行二级质谱图背景扣除和质量数校正,点击Process List,软件开始根据输入的Compound列表中的分子量和加合模式等信息在原始raw文件数据中寻找化合物feature,并生成数据库条目,如图3所示,成功生成数据库条目的化合物会显示为Spectrum Found。部分化合物因离子化效率差、样品中浓度低、溶解度较差等原因,导致无法生成Compound list中对应的一级质谱 (MS1) 或MS2信息,从而无法找到相应信息,软件对该条目会显示No Spectrum Found。此时,需要对该化合物进行单标重复进样,并将质谱信息进行手动录入。


    图3. 完成和未完成录入的数据库条目

    4)
    点击Build标签中的New按钮,新建一个化合物条目。点击Compound标签中的Open RAW File按钮,打开该化合物对应的原始数据文件,点击MOL file按钮关联化合物的Mol结构文件,在打开的原始数据中,找到化合物对应的MS2通道,结合Xcalibur进行特征峰质量偏差比对,应在5 ppm以内,确认无误后,点击Recalibrate和Add按钮,将化合物质谱信息录入数据库。


    图4. 手动录入化合物质谱信息的工作流程

    5)
    录入完成后的mzVault质谱数据库如图5所示,共有602种内源性代谢物通过两种液质联用方法采集到的正确的MS1和MS2以及保留时间信息,该数据库包括了化合物中英文名称、分子式、CAS ID、HMDB ID、KEGG ID、高分辨MS1和MS2信息、结构式以及在RPLC和HILIC两种体系内的保留时间。该数据库为".db"格式,经过格式转化后可以生成".msp",".sdf",".cdb"等格式,能够应用于Compound discover、Trace finder、Progenesis QI、XCMS、metaboanalyst、MS-DIAL等质谱数据处理软件和分析平台。


    图5. 完成信息录入的mzVault数据库界面

  4. 代谢组学及实际样品数据分析比对工作流程
    将建立的内源性代谢物质谱数据库导入Compound discover 3.2软件中,采用293T细胞内容物作为实际样品,比较该数据库和软件中现有数据库"Bamba lab 598 polar metabolites"、"Fiehn HILIC POS 1701 & NEG 1341"、mzcloud离线镜像版以及mzcloud在线版在细胞代谢组学工作流程的特征峰鉴定数量、准确度和数据处理所需时间等方面的差异。具体工作流程如下:
    1)
    细胞内容物样品提取:细胞内容物采用细胞破碎法进行提取,取293T细胞5 x 106~1 x 107个,1,000 × g离心5 min,用4 °C预冷的磷酸缓冲盐溶液 (PBS,pH = 7.4) 洗涤细胞两次,除去剩余的胎牛血清 (FBS)。加入2 ml 0 °C预冷的80%甲醇,-80 °C下孵育30 min破碎细胞,4 °C下14,000 × g离心15 min除去蛋白沉淀。取上清液1.8 ml,氮气 (纯度> 99.9%) 吹干,用100 μl 50%乙腈水溶液复溶,即得细胞内容物待测样品。底层蛋白含量采用Nanodrop进行测定,以校正细胞小分子代谢物含量。
    2)
    仪器条件:色谱条件同"实验步骤,2.质谱数据采集"中的"色谱条件1 (HILIC体系,针对极性小分子内源性代谢物) ",质谱条件同"实验步骤,2.质谱数据采集"中的"质谱条件"。
    3)
    数据分析比对流程:采用Compound discover 3.2软件进行细胞代谢组学数据处理,软件工作流程如图6所示,所有模块包括峰对齐、特征峰提取、分子式匹配以及特征峰鉴定,数据库匹配质量偏差阈值设置为5 ppm,峰强度阈值设定为500,000。如图7所示,在"Search mzVault"模块mzVault Library选项中选择不同质谱数据库,分别选择"Bamba lab 598 polar metabolites"、"Fiehn HILIC POS 1701 & NEG 1341"、mzcloud离线镜像版、mzcloud在线版以及自建数据库在细胞代谢组学工作流程的特征峰鉴定数量、准确度和数据处理所需时间等方面的差异。自建数据库同时匹配保留时间,阈值设置为± 15 s。


    图6. Compound discover 3.2软件工作流程


    图7. "Search mzVault"模块参数设置

结果与分析

本实验共选择5种数据库进行代谢组学数据分析,考察数据库通量及搜索准确度,结果如表5所示。从鉴定数量结果来看,mzcloud数据库因质谱信息条目多,鉴定到的化合物数量最多,但经过手动指认和标注后,部分结果因采集仪器不同、没有保留时间比对等原因被认定为假阳性结果或重复结果。而采用自建数据库则很大程度上的降低了假阳性率,并且手动标注后的化合物鉴定结果数也与mzcloud等数据库保持相同水平。


表5. 五种内源性代谢物质谱数据库细胞内容物代谢组学鉴定结果对比

Bamba Fiehn mzcloud
离线版
mzcloud
在线版
自建数据库
鉴定结果数 57 139 237 249 175
手动标注后结果数 35 85 148 142 149
假阳性鉴定率 (%) 38.60 38.85 37.55 42.97 14.86


        自建数据库的高通量优势如图8所示,比较采用compound discover加载不同数据库处理代谢组学数据的时长,自建数据库在化合物搜库鉴定总时长上具有更显著的优势,相比高通量的mzcloud的离线或在线工作流程,分析时间缩短了50%以上。结合QE Plus质谱实现正负离子信息同时采集和扫描,同一个样品仅需一次进样,LCMS分析总时间27 min,即可对代谢组学样品进行快速数据采集及数据处理,缩短的现有方法所需时间,进一步突显了高通量质谱数控采集及分析的特点。



图8. Compound discover加载不同数据库进行数据处理所需时长对比

致谢

感谢清华大学药学院尹航老师的讨论、建议和大力支持。感谢"清华大学实验室管理处双一流实验室建设专项"对本实验提供的支持。

参考文献

  1. Gray, N., Lawler, N., Yang, R., Morillon, A. C., Gay, M. C. L., Bong, S. H., Holmes, E., Nicholson, J. K. and Whiley, L. (2020). A simultaneous exploratory and quantitative amino acid and biogenic amine metabolic profling platform for rapid disease phenotyping via UPLC-QToF-MS. Talanta 223: 121872.
  2. Tsugawa, H., Cajka, T., Kind, T., Ma, Y., Higgins, B., Ikeda, K., Kanazawa, M., VanderGheynst, J., Fiehn, O. and Arita, M. (2015). MS-DIAL: data-independent MS/MS deconvolution for comprehensive metabolome analysis. Nat Methods 12(6): 523-526.
  3. Tsugawa, H., Kind, T., Nakabayashi, R., Yukihira, D., Tanaka, W., Cajka, T., Saito, K., Fiehn, O. and Arita, M. (2016). Hydrogen rearrangement rules: computational MS/MS fragmentation and structure elucidation using MS-FINDER software. Anal Chem 88(16): 7946.
Please login or register for free to view full text
Login | Register
Copyright: © 2021 The Authors; exclusive licensee Bio-protocol LLC.
引用格式:唐煜, 韦芳, 付玮彬, 商世瑛. (2021). 高通量质谱数据库建立及应用——以内源性代谢组学研究为例. // 高通量筛选实验手册. Bio-101: e1010847. DOI: 10.21769/BioProtoc.1010847.
How to cite: Tang, Y., Wei, F., Fu, W. B. and Shang, S. Y. (2021). Establishment of a High Throughput MS Database and Its Application in Endogenous Metabolite Metabolomics Profiling. // High-throughput Screening Protocol eBook. Bio-101: e1010847. DOI: 10.21769/BioProtoc.1010847.
We use cookies on this site to enhance your user experience. By using our website, you are agreeing to allow the storage of cookies on your computer.