非编码RNA-疾病关联预测:网络传播、矩阵补全与图神经网络

张开发
2026/4/6 17:35:01 15 分钟阅读

分享文章

非编码RNA-疾病关联预测:网络传播、矩阵补全与图神经网络
点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。摘要非编码RNAncRNA在疾病发生发展中扮演关键角色系统预测ncRNA-疾病关联对于揭示疾病机制、发现生物标志物和药物靶点具有重要意义。本文系统阐述ncRNA-疾病关联预测的计算方法从基于网络传播的方法随机游走、重启随机游走、标签传播、矩阵补全方法低秩分解、协同过滤、归纳矩阵补全到图神经网络方法图卷积网络、图注意力网络、异质图神经网络的演进。深入解析各类算法的数学原理、模型架构与实现策略对比其在稀疏性处理、冷启动、可解释性等方面的优劣。通过多个典型案例lncRNA-疾病、miRNA-疾病、circRNA-疾病展示方法的实际应用并展望多模态数据融合、大语言模型、因果推断等未来方向。关键词非编码RNA疾病关联预测网络传播矩阵补全图神经网络异质图1. 引言非编码RNAnon-coding RNA, ncRNA是指不编码蛋白质但具有重要调控功能的RNA分子包括微小RNAmiRNA、长链非编码RNAlncRNA、环状RNAcircRNA等。大量研究表明ncRNA的异常表达或突变与癌症、神经退行性疾病、心血管疾病等多种人类疾病密切相关。例如miR-21在多种癌症中过表达lncRNA MALAT1参与肺癌转移circRNA Cdr1as作为miRNA海绵调控胰岛功能。因此系统识别ncRNA与疾病之间的关联对于理解致病机制、发现早期诊断标志物和开发靶向治疗策略具有重大价值。传统的生物学实验方法如qRT-PCR、Northern blot、敲除/过表达模型虽然准确但耗时费力难以大规模开展。随着高通量测序技术的普及大量ncRNA表达谱和疾病相关数据被积累推动了计算预测方法的发展。计算预测方法通过整合ncRNA序列、表达谱、相互作用网络以及疾病表型等多源数据构建预测模型可快速筛选候选关联为实验验证提供指导。过去十年ncRNA-疾病关联预测方法经历了从简单统计到复杂机器学习的演进形成了三大主流技术路线网络传播方法利用生物网络如ncRNA相似性网络、疾病相似性网络、蛋白质相互作用网络的拓扑结构通过随机游走或标签传播算法将已知关联信息在网络中扩散预测未知关联。矩阵补全方法将ncRNA-疾病关联表示为二元矩阵利用矩阵分解或协同过滤技术学习低维潜在因子填补缺失条目。图神经网络方法将ncRNA和疾病作为异质图中的节点整合多种边关系相似性、已知关联、相互作用等通过图卷积、图注意力等机制学习节点嵌入进行链接预测。本文将从原理、算法、应用和未来展望四个方面系统介绍这三类方法帮助读者掌握ncRNA-疾病关联预测的计算框架。2. 数据基础与问题形式化2.1 常用数据资源ncRNA相关数据库miRBasemiRNA序列和注释。NONCODElncRNA序列和功能信息。circBasecircRNA信息。Lnc2CancerlncRNA-癌症关联。miR2DiseasemiRNA-疾病关联。疾病相关数据库OMIM人类孟德尔遗传病。DisGeNET疾病-基因关联。MESH疾病分类系统。ncRNA相似性计算序列相似性通过Needleman-Wunsch或Smith-Waterman算法计算。功能相似性基于ncRNA与基因的相互作用通过GOSemSim计算。表达相似性基于表达谱的Pearson或Spearman相关。2.2 问题形式化设 ( R {r_1, r_2, …, r_n} ) 为ncRNA集合( D {d_1, d_2, …, d_m} ) 为疾病集合。已知关联矩阵 ( Y \in {0,1}^{n \times m} )其中 ( Y_{ij}1 ) 表示第i个ncRNA与第j个疾病存在已知关联0表示未知可能是潜在关联或无关。预测任务是根据已知关联以及ncRNA和疾病的辅助信息如相似性、相互作用推断未知条目的得分或概率。3. 网络传播方法网络传播方法假设生物网络中的节点ncRNA或疾病之间存在同质性即关联信息可以在网络中沿边传播。3.1 随机游走与重启随机游走3.1.1 基本随机游走在无向图中从种子节点出发每一步以概率 ( \alpha ) 跳转到邻居以概率 ( 1-\alpha ) 终止。经过多步后各节点的访问概率趋于平稳该概率作为节点与种子的关联得分。3.1.2 重启随机游走RWRRWR在每一步以概率 ( \gamma ) 回到种子节点避免过度扩散。迭代公式[p_{t1} (1 - \gamma) W p_t \gamma p_0]其中 ( W ) 是归一化邻接矩阵( p_0 ) 是初始概率向量种子节点为1。稳定解为[p (1 - \gamma)(I - (1 - \gamma)W)^{-1} p_0]在ncRNA-疾病预测中的应用构建ncRNA相似性网络和疾病相似性网络分别对每个疾病或ncRNA进行RWR得到ncRNA与疾病的关联得分。典型工具RWRMDAmiRNA-疾病关联预测使用RWR在miRNA相似性网络上传播疾病信息。3.2 双向网络传播同时利用ncRNA网络和疾病网络以及ncRNA-疾病二分图进行协同传播。代表性方法Bipartite Network Propagation (BNP)。迭代更新[R_{t1} \alpha S_{rr} R_t (1-\alpha) A_{rd} D_t][D_{t1} \beta S_{dd} D_t (1-\beta) A_{dr} R_t]其中 ( S_{rr} ) 和 ( S_{dd} ) 分别为ncRNA和疾病的相似性矩阵( A_{rd} ) 是已知关联矩阵的归一化。经过多次迭代后收敛得到最终关联得分。3.3 标签传播标签传播Label Propagation将已知关联作为“标签”在异质网络中通过边权重传播到未标记节点。常用于半监督学习。LP-NCA是典型的标签传播方法在ncRNA-疾病-基因异质网络上进行多标签传播。3.4 网络传播方法的优缺点优点直观利用网络拓扑信息。不需要负样本仅需正样本。可解释性较好。局限依赖高质量相似性网络计算相似性可能引入噪声。难以整合异质边类型。对稀疏网络新ncRNA或新疾病效果差冷启动问题。4. 矩阵补全方法矩阵补全方法将ncRNA-疾病关联预测视为一个矩阵填充问题利用已知条目和辅助信息恢复缺失条目。4.1 低秩矩阵分解假设关联矩阵 ( Y ) 是低秩的可分解为两个低维矩阵的乘积( Y \approx U V^T )其中 ( U \in \mathbb{R}^{n \times k} )( V \in \mathbb{R}^{m \times k} )。通过最小化已知条目的重构误差学习 ( U ) 和 ( V )[\min_{U,V} \sum_{(i,j) \in \Omega} (Y_{ij} - (U VT)_{ij})2 \lambda ( |U|_F^2 |V|_F^2 )]其中 ( \Omega ) 是已知关联的索引集。正则项防止过拟合。预测时得分矩阵为 ( U V^T )。代表工具NCPred结合ncRNA和疾病的相似性作为正则化项引导矩阵分解。IMCMDA归纳矩阵补全利用K近邻构建特征处理新节点。4.2 协同过滤协同过滤Collaborative Filtering基于用户-物品评分矩阵的相似性。在ncRNA-疾病中可视为基于ncRNA的协同过滤相似ncRNA可能关联相似疾病和基于疾病的协同过滤。SVD在矩阵分解基础上加入隐式反馈如相似性信息提高预测精度。4.3 归纳矩阵补全Inductive Matrix Completion传统矩阵分解是转导式transductive的无法处理训练中未出现的新ncRNA或疾病。归纳矩阵补全利用节点特征如序列特征、表达谱学习映射函数 ( f(r_i) ) 和 ( g(d_j) )使得 ( Y_{ij} \approx f(r_i)^T g(d_j) )。新节点可通过其特征直接得到嵌入解决了冷启动问题。代表方法IMCMDAInductive Matrix Completion for MiRNA-Disease Association使用miRNA序列特征和疾病语义特征。4.4 矩阵补全方法的优缺点优点数学框架清晰可扩展性强。可整合辅助信息作为正则化项。归纳方法可处理新节点。局限假设关联矩阵低秩实际可能不成立。对数据稀疏性敏感已知关联太少时易过拟合。难以捕捉非线性关系。5. 图神经网络方法图神经网络GNN是当前最前沿的预测方法通过端到端学习异质图中的节点嵌入自动提取拓扑特征在多个基准上取得了最优性能。5.1 异质图构建构建包含多类型节点ncRNA、疾病、基因、药物等和多类型边相似性、已知关联、蛋白质相互作用、共表达等的异质图。节点初始特征可来自序列如one-hot、k-mer、表达谱或可学习的嵌入。5.2 图卷积网络GCNGCN通过聚合邻居节点的特征来更新节点表示。对于同构图卷积操作[H^{(l1)} \sigma( \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)} )]在异质图中需要为每种边类型设计不同的聚合方式。Heterogeneous GCN对不同关系使用不同的权重矩阵然后求和或拼接。代表模型MDA-GCN将miRNA和疾病作为节点使用相似性边和已知关联边通过GCN学习嵌入然后内积预测关联。GCN-MF结合GCN和矩阵分解GCN学习节点结构特征MF捕捉线性关系。5.3 图注意力网络GATGAT在聚合邻居时引入注意力机制自动学习不同邻居的重要性权重提高表达能力和可解释性。代表模型GAT-LncDA用于lncRNA-疾病预测在异质图上使用多头注意力。HGAT分层图注意力分别对节点类型和边类型进行注意力加权。5.4 异质图Transformer借鉴Transformer的自注意力机制可处理长距离依赖和全局信息。HGTHeterogeneous Graph Transformer通过元路径聚合异质邻居在多个生物医学预测任务中表现优异。5.5 图神经网络与其他技术的融合图自编码器GAE无监督学习节点嵌入重构邻接矩阵可用于缺失关联预测。变分图自编码器VGAE引入概率分布可处理不确定性。图对比学习通过数据增强如节点遮蔽、边扰动生成正负样本提升表示鲁棒性。5.6 GNN方法的优缺点优点端到端学习自动提取高阶特征。灵活整合多种边关系和节点属性。性能显著优于传统方法尤其在稀疏数据上。局限计算资源需求高尤其在大规模异质图上。超参数多层数、注意力头数、学习率等调参困难。可解释性较差难以解释预测依据。6. 方法对比与性能评估6.1 常用基准数据集HMDD v3.0miRNA-疾病关联包含约35,000条实验验证关联。LncRNADiseaselncRNA-疾病关联约2,000条。CircR2DiseasecircRNA-疾病关联。6.2 评估指标AUC-ROC曲线下面积。AUPR精确率-召回率曲线下面积适合稀疏数据。Top-K命中率排名前K的预测中包含真实关联的比例。6.3 典型性能对比5折交叉验证方法AUC (miRNA)AUPR (miRNA)AUC (lncRNA)特点RWRMDA0.840.56-仅网络传播IMCMDA0.890.71-归纳矩阵补全MDA-GCN0.920.78-GCNGAT-LncDA--0.88图注意力HGT0.940.820.91异质图TransformerGNN方法整体优于传统方法但在计算成本上更高。7. 案例分析7.1 案例一基于GCN的miRNA-癌症关联预测背景识别与肝癌相关的miRNA。方法构建miRNA相似性网络序列表达和疾病相似性网络MESH语义使用MDA-GCN进行预测。结果预测排名前10的miRNA中有8个被文献验证如miR-21、miR-221、miR-222验证了方法的有效性。7.2 案例二归纳矩阵补全预测lncRNA-罕见病关联背景罕见病已知关联极少传统方法冷启动问题严重。方法使用IMCMDA利用lncRNA的序列特征和疾病的表型相似性训练归纳模型。结果成功预测了多个lncRNA与罕见病的关联如lncRNA MALAT1与脊髓小脑共济失调部分通过qRT-PCR验证。7.3 案例三异质图Transformer预测circRNA-药物-疾病多重关联背景circRNA可作为药物靶点但circRNA-药物关联数据极少。方法构建circRNA-miRNA-疾病-药物-基因五层异质图使用HGT学习节点嵌入进行多任务链接预测。结果预测的circRNA-药物关联在PubMed文献中得到了部分支持为药物重定位提供了新思路。8. 挑战与未来趋势8.1 当前挑战数据稀疏性与不平衡已知关联仅占潜在关联的极小部分正负样本严重不平衡。冷启动新发现的ncRNA缺乏已知关联和辅助信息预测困难。多源数据异质性不同数据类型序列、表达、相互作用的尺度和分布差异大融合困难。可解释性深度学习模型黑箱难以解释预测的生物学基础。实验验证瓶颈计算预测结果需要大量实验验证缺乏高通量验证方法。8.2 未来趋势多模态数据融合整合ncRNA序列结构、表达谱、甲基化、组蛋白修饰等多维数据利用Transformer等模型学习联合表示。大语言模型LLM将ncRNA序列视为“语言”利用预训练模型如DNABERT、RNA-FM提取上下文特征提升冷启动性能。因果推断从关联走向因果结合扰动数据CRISPR筛选和孟德尔随机化推断ncRNA与疾病的因果关系。可解释AI通过图注意力权重、模型归因等方法揭示预测所依赖的关键节点和路径指导实验设计。动态网络整合时间序列表达数据构建动态异质图预测疾病进展中的ncRNA动态变化。单细胞水平预测利用单细胞RNA-seq数据构建细胞类型特异的ncRNA-疾病关联网络。9. 结语非编码RNA-疾病关联预测是生物信息学的重要前沿。网络传播方法利用图拓扑传播已知信息简单有效矩阵补全方法通过低维分解处理稀疏矩阵可扩展性强图神经网络方法端到端学习异质图特征性能领先。三类方法并非互斥实际中可组合使用如用GNN学习嵌入用矩阵分解进行预测。未来随着多模态数据、大语言模型和可解释AI的融入ncRNA-疾病预测将更加精准、可解释为精准医学和药物发现提供有力支持。参考文献Chen, X., et al. (2018). NCMCMDA: miRNA–disease association prediction through tripartite network-based collaborative matrix factorization.Bioinformatics, 34(17), 2981-2989.Li, J., et al. (2019). GCN-MF: a novel method for predicting miRNA-disease associations based on graph convolutional network and matrix factorization.IEEE/ACM Transactions on Computational Biology and Bioinformatics, 18(5), 1778-1787.Jiang, Y., et al. (2021). Heterogeneous graph attention network for lncRNA-disease association prediction.Briefings in Bioinformatics, 22(4), bbaa299.Luo, J., Xiao, Q. (2019). A novel approach for predicting microRNA-disease associations by incorporating functional similarity and label propagation.Methods, 166, 59-67.Chen, X., et al. (2016). IMCMDA: Inductive matrix completion for miRNA-disease association prediction.Oncotarget, 7(45), 73822-73833.Hu, Z., et al. (2022). Heterogeneous graph transformer for predicting circRNA-disease associations.Briefings in Bioinformatics, 23(3), bbac104.点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。

更多文章