近日,我组在代谢组学途径预测方法研究中取得新进展,将深度学习技术与LC-MS/MS的非靶向代谢组学相结合,实现了对从未注释的MS/MS质谱数据KEGG代谢途径的直接预测。该方法无需依赖代谢物的预先注释,即可挖掘重要代谢途径,解决了传统代谢组学研究中因代谢物鉴定率低而导致途径富集偏向性问题,显著提升了非靶向代谢组学数据的利用率。
代谢组学研究中,代谢途径富集分析是阐明疾病机制、推动药物研发以及生物工程应用的关键环节。然而,传统途径分析方法严重依赖于代谢物的准确鉴定和途径数据库的收录信息,面临三大核心挑战:首先,基于质谱的非靶向代谢组学中仅有2-20%的代谢特征能被注释;其次,现有代谢途径数据库更新滞后且途径知识收录不完整;再者,现有的机器学习和深度学习方法均依赖于已知的化学结构信息,无法应用于未鉴定化合物。
针对上述问题,我组自主研发了MS2MP深度学习框架。该方法将MS/MS质谱转化为碎片树的图结构表示,利用图神经网络直接学习质谱特征与代谢途径间的复杂映射关系。MS2MP关键技术包括:(1)首次实现从MS/MS谱图直接预测特定代谢途径,避免了代谢物鉴定步骤;(2)采用跨仪器平台、多实验条件下采集的实验质谱数据进行模型训练,显著提升了模型的泛化能力和预测稳健性;(3)采用碎片树的图表示方法,有效捕捉了质谱碎片间的结构关联特征。性能评估表明,MS2MP在KEGG途径分类和特定代谢途径预测任务中均表现出优异性能。该方法已成功应用于代谢组学研究,实现了从非靶向代谢组学数据直接富集相关途径,为揭示代谢机制提供了新的信息。
相关研究成果以“MS2MP: A Deep Learning Framework for Metabolic Pathway Prediction from MS/MS-Based Untargeted Metabolomics”为题发表在《Analytical Chemistry》。该工作的第一作者为我组博士研究生包涵,通讯作者为路鑫研究员和许国旺研究员。该工作得到了国家自然科学基金、所创新基金以及榆林院人工智能专项等项目资助。
(文/图 包涵、路鑫)
文章链接https://doi.org/10.1021/acs.analchem.4c06875