近日,我组在前期构建的多组学整合分析框架MODA(Briefings in Bioinformatics, 10.1093/bib/bbaf532)的基础上取得新进展,研发出多组学整合分析框架MODAPro。该框架结合变分图自编码器与异构图卷积网络,提升了在复杂疾病中识别关键分子与核心功能模块的能力,展现出较好的生物可解释性与场景适用性。
多组学整合是系统生物学揭示疾病机制的重要手段,然而,跨组学数据异质性高、生物背景复杂以及模型可解释性差等问题仍制约着该领域的发展。针对上述挑战,MODAPro在MODA框架基础上进行方法创新,构建了更为综合的生物知识图谱,并通过变分图自编码器与异构图卷积网络的融合,实现多组学数据的整合。
MODAPro的主要工作包含:1)构建了覆盖7种节点类型与14种生物学关系的综合知识图谱,为多组学数据整合提供结构化背景;2)引入图变分结构自编码器,以知识驱动方式实现图属性补全,缓解网络稀疏性问题;3)采用配备净化器的注意力机制图卷积网络,动态识别并剪枝噪声连接与冗余边,增强模型稳健性;4)采用DEMON重叠社区发现算法,其具备对网络噪声不敏感的特性,提升结果鲁棒性。基准测试显示,MODAPro在关键生物分子识别与功能模块的生物学意义解析方面,显著优于八种主流多组学整合方法。MODAPro在包含暴露组学的人群队列数据分析中,能够有效揭示暴露因子与其它组学分子(如代谢组)间的生物学关联,实现对未知信息的推测。基于所构建的综合知识图谱,MODAPro仅使用胶质瘤的单一转录组数据,也能实现多组学层面的网络推断与机制挖掘,成功揭示了GGT5基因通过调控谷胱甘肽代谢通路影响胶质瘤进展的潜在机制。
相关研究成果以《MODAPro: Explainable Heterogeneous Networks with Variational Graph Autoencoder for Mining Disease-Specific Functional Molecules and Pathways from Omics Data》。该工作的第一作者为我组博士研究生赵金慧,通讯作者为路鑫研究员和许国旺研究员。该工作得到了国家自然科学基金、所创新基金以及榆林院人工智能专项等项目资助。(文/图赵金慧)
文章链接:https://doi.org/10.1021/acs.analchem.5c03611