首页 > 科研进展 > 正文

我组研发多模态组学数据整合新方法

作者:时间:2026-04-14点击数:

近日,我组在多模态组学数据整合方法研究方面取得新进展,开发了半监督多模态组学数据分析新框架SMODASemi-supervised Multimodal Omics Data Analysis)。该方法结合异构迁移学习与高斯混合模型,提升了复杂多模态组学数据的疾病分类和亚型识别能力,为复杂疾病的精准分层研究提供了新工具。

疾病异质性是精准医学面临的重要挑战。多模态组学整合为疾病分型提供了新途径,但现有方法仍易受跨模态噪声、类别不平衡和可解释性不足等因素限制。针对上述问题,团队提出SMODA框架,采用单模态预训练、跨模态异构迁移学习和可靠性建模三阶段策略。该方法先学习稳定的模态特征表示,以减弱早期融合带来的噪声干扰并降低对大规模标注数据的依赖;再基于相似度矩阵实现不同模态数据在统一嵌入空间中的对齐与整合;进一步结合课程学习与高斯混合模型,对异质样本和噪声样本进行可靠性建模,从而提升复杂队列分析的鲁棒性与可解释性。应用结果表明,SMODA2型糖尿病数据集上的分类性能优于主流机器学习方法。在食管癌暴露-疾病交互网络分析提示环境因子可能通过扰动脂质代谢、炎症反应及氧化应激等过程参与食管癌发生发展。

近年来,针对数据分析中易陷入的经验陷阱,团队提出了SysML方法推荐流程(Brief. Bioinform., 2025)。进一步探索知识驱动与数据驱动的深度融合,开发了初代 MODA 模型(Brief. Bioinform., 2025),有效攻克了小样本条件下的建模难题,实现了关键生物信号的稳健识别。第二代 MODAPro 模型(Analytical Chemistry, 2025)引入丰富的先验知识,结合异构变分图自编码器与净化器注意力机制,通过对抗噪声提升了结果的可解释性与稳定性。近期基于样本网络实现异构多模态数据的整合分析,逐步构建从方法创新到生物学应用的系统性研究工具。相关研究成果以“SMODA: Interpretable Multimodal Omics Integration for Disease Classification and Subtype Discovery via Heterogeneous Transfer Learning”为题发表在《Analytical Chemistry》期刊(https://pubmed.ncbi.nlm.nih.gov/41958337/)。该工作第一作者为我组博士研究生赵金慧,通讯作者为路鑫研究员和许国旺研究员。研究得到了国家自然科学基金、中国科学院大连化物所创新基金以及大连医科大学第二附属医院-中国科学院大连化学物理研究所医工联合基金资助。(文/图 赵金慧)


Laboratory of High Resolution Separation/Analysis and Metabonomics   Dalian Institute of Chemical Physics, Chinese Academy of Sciences. All Rights Reserved.
中国科学院大连化学物理研究所  生物分子高分辨分离分析及代谢组学研究组(1808组)
地址: 大连市中山路457号, 邮编: 116023 电话: 0411-84379531; 传真: 0411-84379559     Email: g1808@dicp.ac.cn