信息学院郑杰课题组在AI助力发现抗癌药物靶标方面取得新进展

发布者:闻天明发布时间:2022-11-04浏览次数:46

近日,信息学院郑杰课题组项成果同时被计算生物学国际旗舰会议——21届欧洲计算生物学大会(21st European Conference on Computational Biology, ECCB 2022正式接收并在大会作口头报告,两篇论文同时收录在生物信息学领域核心期刊《生物信息学》(Bioinformatics)的ECCB2022会议专刊ECCB大会于2022年9月18日至21日在西班牙巴塞罗那召开,会议收到144篇投稿论文25篇论文被选中,接收率为17.4%。

合成致死(Synthetic Lethality,SL)是一种基因相互作用关系,即两个基因同时失活导致细胞死亡,而单独一个基因失活并不影响细胞的活力。在一对SL基因中,一个基因有癌症特异性突变,另一个基因可成为潜在的药物靶点,因为对后者基因的扰动可以选择性地杀死癌细胞,而正常细胞不受影响。SL相互作用主要通过实验筛选和计算预测来确定。实验筛选成本高,耗时长。受益于SL数据的积累,基于数据驱动的机器学习模型的SL预测方法近年来得到快速发展。然而,最近的机器学习方法大多是单独学习每个基因的表征,忽略了两个基因之间成对相互作用的表征。此外,作为将SL转化为癌症治疗药物的关键,SL的作用机制往往并不清楚。


  图一:PiLSL模型。(a)为每对基因构造一个封闭图。(b) 利用图注意力机制,从封闭图中学习基因的表征。(c) 融合从封闭图中学到的隐式特征和从多组学数据中学到的显示特征,获得最终的基因对表示



郑杰课题组提出了一个基于成对关系学习pairwise interaction learning)的图神经网络模型PiLSL,从课题组构建的合成致死知识图谱(SynLethKG)中学习两个基因之间成对相互作用的表示,从而进行SL的预测。此外,PiLSL利用注意力机制,通过封闭子图中的加权路径对SL机制进行解释。大量的实验结果表明PiLSL最好的基线方法相比有很大的优势,并且在三种真实场景的测试中表现出强大的泛化能力。

此项成果信息学院郑杰课题组、免疫化学研究所与生命学院白芳课题组合作完成,并以题为“PiLSL: pairwise interaction learning-based graph neural network for synthetic lethality prediction in human cancers”发表信息学院杰课题组2021级研究生刘鑫为论文第一作者,信息学院副教授郑杰为通讯作者。

文章链接:https://academic.oup.com/bioinformatics/article/38/Supplement_2/ii106/6701994

 

基因表征方面的不足,监督式机器学习方法另一个局限是它们通常将SL预测看作二分类任务,以已知的SL为正样本,其一些基因对为负样本训练预测模型。然而高质量的负样本数据难以获得,这是基于分类任务的SL预测方法的一个瓶颈。此外在实际场景中,考虑到实验验证的高成本,用户通常更关心的是在被预测为SL的基因对的头部子列表中真实SL所占的比例,而不是模型对所有基因对的整体分类性能。


  图二: NSF4SL模型。(a)利用训练数据全局统计值,增强基因原始表征。(b)借助对比学习架构使用SL数据训练模型


 

郑杰课题组提出基于对比学习contrastive learning)的合成致死基因搭档推荐模型NSF4SL,能够克服对高质量负样本的依赖。NSF4SL将SL预测任务描述为基因排序问题,依靠SL正样本数据学习SL基因对之间相似性。此外NSF4SL设计了一种数据增强方法,在基因表征中引入训练数据的全局统计量,以解决SL数据的稀疏性问题。大量的实验结果表明NSF4SL预测能力优于需要负样本的基线模型,并且在不同的实验设置下有较好的泛化能力。

此项成果主要由上海科技大学信息学院郑杰课题组完成,并以题为NSF4SL: negative-sample-free contrastive learning for ranking synthetic lethal partner genes in human cancers发表,上海科技大学为第一完成单位。信息学院2020级硕士生王诗珂为论文第一作者,其他学生作者包括信息学院博士生冯艺苗和硕士生刘鑫,他们均在郑杰课题组学习和研究。新加坡南洋理工大学资深研究科学家刘勇和新加坡科技研究局资深科学家吴敏参与了实验和理论框架的设计。信息学院副教授郑杰为通讯作者。

文章链接:https://academic.oup.com/bioinformatics/article/38/Supplement_2/ii13/6701996


PiLSL和NSF4SL对AI助力药物靶标发现的技术发展积极的推动作用。近年来,郑杰课题组在合成致死预测的人工智能技术方向做出一系列创新成果,是该领域的领跑者之一。未来,他们将着重于开发融合多组学数据的具有可解释性的SL预测模型,指导药物靶标发现与验证实验的设计。

  

  图三上海科技大学信息学院郑杰课题组的硕士生王诗珂(左,2020级)和刘鑫(右,2021级)在国际计算生物学旗舰会议ECCB 2022现场

  

  上海科技大学信息学院郑杰课题组硕士生刘鑫在ECCB2022会议上PiLSL作口头报告


  

上海科技大学信息学院郑杰课题组硕士生王诗珂在ECCB2022会议上为NSF4SL作口头报告