近日,我组在多组学数据整合分析新方法研究中取得新进展,构建了一种基于图卷积网络与注意力机制的多组学整合分析框架MODA,实现了对疾病关键分子与核心功能模块的高效挖掘,并在前列腺癌研究中揭示了肉碱代谢通路的关键作用。该研究为深入理解复杂疾病的分子机制提供了新的工具。
多组学整合是系统生物学研究的重要环节,由于数据异质性、高维度及噪声干扰等问题,目前在捕捉非线性生物学关系、识别关键通路方面存在局限。本研究提出了MODA多组学数据整合框架,以先验知识图谱为基础,结合图卷积网络与注意力机制,融合多机器学习模型生成的分子重要性评分,精准识别关键分子及相关功能模块。
MODA的核心设计包括:1)构建以“分子网络”为核心的背景知识图谱,形成覆盖多类型生物分子的全局关联网络;2)利用多机器学习方法将原始组学数据转化为重要性评分矩阵,有效平衡组学间异质性并抑制噪声干扰,提升模型稳健性;3)通过网络节点的全局关联分析,突破单一组学局限,同时支持对未检测“隐藏分子”的挖掘;4)采用重叠社区检测算法剔除冗余分子,识别出与疾病高度关联的核心功能模块,提升结果的可解释性。性能评估表明,MODA在关键分子与通路识别方面显著优于常见的7种主流多组学分析方法。该框架已成功应用于前列腺癌的多组学研究,通过人群数据与体外实验验证,揭示了BBOX1通过调控肉碱和棕榈酰肉碱代谢影响前列腺癌进展的新机制。此外,在涵盖21种癌症类型的泛癌分析中,MODA表现出优异的特异性与生物学解释力。
相关研究成果以“MODA: a graph convolutional network-based multi-omics integration framework for unraveling hub molecules and disease mechanisms”为题发表在《Briefings in Bioinformatics》。该工作的第一作者为我组博士研究生赵金慧,通讯作者为路鑫研究员和许国旺研究员。该工作得到了国家自然科学基金、所创新基金以及榆林院人工智能专项等项目资助。
文章链接:https://doi.org/10.1093/bib/bbaf532(文/图赵金慧)