首页 > 科研进展 > 正文

我组研发基于变分图自编码器与异构卷积网络的多组学数据整合新方法

作者:时间:2025-10-30点击数:

近日,我组在前期构建的多组学整合分析框架MODA(Briefings in Bioinformatics, 10.1093/bib/bbaf532)的基础上取得新进展,研发出多组学整合分析框架MODAPro。该框架结合变分图自编码器与异构图卷积网络,提升了在复杂疾病中识别关键分子与核心功能模块的能力,展现出较好的生物可解释性与场景适用性。



多组学整合是系统生物学揭示疾病机制的重要手段,然而,跨组学数据异质性高、生物背景复杂以及模型可解释性差等问题仍制约着该领域的发展。针对上述挑战,MODAPro在MODA框架基础上进行方法创新,构建了更为综合的生物知识图谱,并通过变分图自编码器与异构图卷积网络的融合,实现多组学数据的整合。

MODAPro的主要工作包含:1)构建了覆盖7种节点类型与14种生物学关系的综合知识图谱,为多组学数据整合提供结构化背景;2)引入图变分结构自编码器,以知识驱动方式实现图属性补全,缓解网络稀疏性问题;3)采用配备净化器的注意力机制图卷积网络,动态识别并剪枝噪声连接与冗余边,增强模型稳健性;4)采用DEMON重叠社区发现算法,其具备对网络噪声不敏感的特性,提升结果鲁棒性。基准测试显示,MODAPro在关键生物分子识别与功能模块的生物学意义解析方面,显著优于八种主流多组学整合方法。MODAPro在包含暴露组学的人群队列数据分析中,能够有效揭示暴露因子与其它组学分子(如代谢组)间的生物学关联,实现对未知信息的推测。基于所构建的综合知识图谱,MODAPro仅使用胶质瘤的单一转录组数据,也能实现多组学层面的网络推断与机制挖掘,成功揭示了GGT5基因通过调控谷胱甘肽代谢通路影响胶质瘤进展的潜在机制。

相关研究成果以《MODAPro: Explainable Heterogeneous Networks with Variational Graph Autoencoder for Mining Disease-Specific Functional Molecules and Pathways from Omics Data》。该工作的第一作者为我组博士研究生赵金慧,通讯作者为路鑫研究员和许国旺研究员。该工作得到了国家自然科学基金、所创新基金以及榆林院人工智能专项等项目资助。(文/图赵金慧)

文章链接:https://doi.org/10.1021/acs.analchem.5c03611 

Laboratory of High Resolution Separation/Analysis and Metabonomics   Dalian Institute of Chemical Physics, Chinese Academy of Sciences. All Rights Reserved.
中国科学院大连化学物理研究所  生物分子高分辨分离分析及代谢组学研究组(1808组)
地址: 大连市中山路457号, 邮编: 116023 电话: 0411-84379531; 传真: 0411-84379559     Email: g1808@dicp.ac.cn