多肽涉及和参与生物体内各种细胞过程,比如信号传导、基因表达调控、细胞增殖和凋亡,在生物体内扮演着不可或缺的关键作用。目前,已经有超过7000种天然多肽被发现【1】。由于多肽药物主要来源于天然多肽或者内源性多肽,因此作用机理明确、具有更高的活性和选择性、安全性较高,能够广泛作用于内分泌系统、免疫系统、消化系统、心血管系统、血液系统等。目前,全球市场上大约有80多种多肽药物,占全球制药市场的5%,且有200~300种多肽药物处在临床试验中【2】。识别和解析多肽和蛋白质的相互作用及其机制,有助于为多肽药物精准定位靶点,并为多肽药物的化学修饰提供关键信息,从而加速多肽药物的研发进程。
近日,清华大学交叉信息研究院曾坚阳课题组在Nature Communications杂志上发表题为A deep-learning framework for multi-level peptide–protein interaction prediction的论文,基于多肽和蛋白质序列,成功开发了一个多尺度预测多肽和蛋白质相互作用的深度学习模型。该研究为多肽和蛋白质相互作用的机制提供了一个高效的预测框架,可以在为多肽药物预测结合靶点的同时,识别多肽序列上的结合位点。
目前有主流的计算框架分别基于序列的和基于结构来识别蛋白质和多肽配体的相互作用。然而,这些方法主要集中于识别蛋白质表面与多肽结合结合的残基,无法直接提取多肽序列中的结合残基。此外,基于结构的方法需要用到三维结构信息,但通过传统的实验方法测定得到的蛋白质-多肽复合物的结构非常昂贵且耗时。在本项研究中,曾坚阳团队提出了名为CAMP的深度学习框架,用于同时预测多肽-蛋白相互作用(pepPIs)和识别多肽序列上的结合残基。
CAMP的模型框架图
CAMP将蛋白质和多肽的氨基酸序列、二级结构、理化性质、序列灵活性得分和蛋白质的PSSM矩阵作为模型输入,利用卷积神经网络(CNN)模块和自注意力机制(self-attention)来预测给定的肽-蛋白对之间是否存在相互作用,同时识别多肽序列上的结合位点。
测试结果表明,在多种数据划分的设定下,CAMP在基准数据集上的表现均优于现有的方法。此外,测试结果和案例分析表明,CAMP可以准确地预测多肽序列上的结合残基,从而为进一步理解多肽与蛋白质的结合机制提供有效的帮助。最后,作者进一步研究了CAMP在三个相关任务中的应用潜力,即多肽-蛋白结合域相互作用预测(peptide-PBD interaction)、结合亲和力评估和多肽的虚拟筛选。结果表明,CAMP在这三个相关任务上均获得出色表现。
综上所述,曾坚阳团队开发了一个多层次的多肽-蛋白相互作用预测的深度学习框架(CAMP)以同时预测多肽和蛋白质之间时候存在相互作用和识别多肽序列的结合残基。该方法使用多通道特征提取器分别处理数值特征和分类特征,以避免多源特征的不一致性。此外,作者通过和现有的最有方法比较,验证了CAMP拥有更优的性能,同时展示了CAMP在peptide-PBD相互作用预测、多肽-蛋白质的亲和力评估和多肽的虚拟筛选方面的应用潜力。这些结果表明,CAMP可以提供准确的肽-蛋白相互作用预测,并有助于研究者理解多肽与蛋白质结合的潜在机制。
该论文通讯作者为清华大学交叉信息研究院的曾坚阳副教授和赵诞助理研究员,第一作者为清华大学交叉信息研究院预研生雷逸品,合作作者包括清华大学自动化系李梢课题组等。除此之外,曾坚阳团队还开发了一系列基于机器学习和深度学习的药物预测方法,包括小分子药物靶点预测算法DTINet【3】、NeoDTI【4】、DeepCPI【5】和MONN【6】,药物-靶点关系自动抽取的文本挖掘模型BERE【7】等。
原文链接:https://doi.org/10.1038/s41467-021-25772-4
制版人:十一
参考文献
Muttenthaler M , King G F , Adams D J , et al. Trends in peptide drugdiscovery[J]. Nature Reviews Drug Discovery, 2021, 20(4).
Rastogi, S., Shukla, S., Kalaivani, M. and Singh, G.N., 2019. Peptide-based therapeutics: quality specifications, regulatory considerations, and prospects.Drug discovery today, 24(1), pp.148-162.
Luo, Y., Zhao, X., Zhou, J., Yang, J., Zhang, Y., Kuang, W., ... & Zeng, J. (2017). A network integration approach for drug-target interaction prediction and computational drug repositioning from heterogeneous information.Nature communications, 8(1), 1-13.
Wan, F., Hong, L., Xiao, A., Jiang, T., & Zeng, J. (2019). NeoDTI: neural integration of neighbor information from a heterogeneous network for discovering new drug–target interactions.Bioinformatics, 35(1), 104-111.
Wan, F., Zhu, Y., Hu, H., Dai, A., Cai, X., Chen, L., ... & Zeng, J. (2019). DeepCPI: A Deep Learning-based Framework for Large-scale in silico Drug Screening. Genomics,Proteomics & Bioinformatics, 17(5), 478-495.
Li, S., Wan, F., Shu, H., Jiang, T., Zhao, D. and Zeng, J., 2020. MONN: a multi-objective neural network for predicting compound-protein interactions and affinities.Cell Systems, 10(4), pp.308-322.
Hong, L., Lin, J., Li, S., Wan, F., Yang, H., Jiang, T., Zhao, D. and Zeng, J., 2020. A novel machine learning framework for automated biomedical relation extraction from large-scale literature repositories.Nature Machine Intelligence, 2(6), pp.347-355.