蛋白质等电点预测工具(新型描述符助力蛋白质圆二色谱的人工智能预测)
蛋白质等电点预测工具(新型描述符助力蛋白质圆二色谱的人工智能预测)该模型具有高效、准确和优秀迁移能力的优点。使用该方法快速预测了Trp-cage蛋白质在折叠路径中的不同构型所对应的圆二色谱。这些光谱均反应了折叠过程中的结构变化(图四),并且对于完全折叠状态的Trp-cage(S100),该方法得到的模拟CD谱与被整体蓝移了6 nm后(相当于~0.2eV)的实验CD谱非常吻合。这些显示了这项工作所提出的机器学习模型用来进行蛋白质动力学实时圆二色谱研究的潜力。图三.不同类型蛋白质的实验(黑色曲线)和机器学习预测(红色曲线)的圆二色谱该机器学习模型的成功在于采用了新型嵌入式密度描述符,该描述符成功预测了肽键的跃迁电、磁偶极矩,其预测精度与第一性原理计算相当(图二)。图二.肽键的跃迁电、磁偶极矩的机器学习预测结果使用机器学习预测的参数构建激子哈密顿量,即可快速对角化获得蛋白质的圆二色谱响应曲线。该方法与传统的第一原理计算方案相比,大大加快了光谱模拟的速度,同时保
作为生命的基石,蛋白质的结构特征是生命科学研究的关键信息。分子光谱技术,可以通过测量蛋白质对光照的响应信号,利用光学特征的不同来测定蛋白质的结构及其动态演变。通常来说,光谱测量结果需要结合快速的理论解读手段,实现对结构的准确识别。然而,在量子化学精度下模拟精确的蛋白质光谱常常受限于昂贵的计算成本,这制约了实验光谱的高效理论解读。中国科学技术大学江俊教授以人工智能技术替代量子化学计算获得光谱模拟所需的关键物理参数,发展出了蛋白质紫外光谱(Proc. Natl. Acad. Sci. U.S.A. 2019 116 11612)、红外光谱(J. Am. Chem. Soc. 2020 142 19071)的快速预测工具,该工具还成功用于模拟新冠病毒S蛋白与人体hACE2蛋白结合过程不同阶段中的红外光谱变化(Proc. Natl. Acad. Sci. U.S.A. 2021 118),为发展实验光谱技术揭示新冠病毒入侵人体细胞的过程提供坚实的理论和技术支持。
电子圆二色光谱(CD)具有易操作和对细微结构变化高度敏感的优点,也是探测蛋白质结构的强大工具。远紫外区的蛋白质CD光谱响应以肽键的贡献为主,肽键的跃迁电、磁偶极矩这两个关键参数对于模拟不同二级结构的CD谱是必要的。然而,激发态跃迁偶极矩是与多个坐标分量相关的向量,其矢量方向由相应类型的电子跃迁所决定,因此通过传统的机器学习描述符准确预测这两个张量参数是很困难的。这一困难可以通过近期发布的嵌入式原子神经网络模型来克服。新型的嵌入式密度描述符由此被开发,该描述符将每个原子视为嵌入在由周围原子产生的电子气中的杂质,由相邻原子的原子轨道的线性组合的平方构成,能够满足所预测的张量参数内禀的置换和转动对称性。
本工作基于中国科学技术大学蒋彬教授开发的新型嵌入式密度描述符,成功预测了肽键的跃迁电、磁偶极矩,突破了蛋白质电子圆二色谱的机器学习模拟瓶颈,提出了一个可高效模拟蛋白质CD光谱的计算方案。具体来说,基于Frenkel激子模型和偶极近似的模型哈密顿量法是进行蛋白质圆二色光谱模拟的性价比较高的办法,其矩阵元素包括结构片段的本征跃迁能信息和片段之间的耦合信息。本工作结合了模型哈密顿量法,使用基于机器学习预测的参数来构建有效的哈密顿量并生成蛋白质的圆二色谱(图一)。
图一. (a)作为肽键模型的NMA分子;(b)蛋白质圆二色谱的哈密顿矩阵模型;(c)蛋白质圆二色谱的机器学习预测方法
该机器学习模型的成功在于采用了新型嵌入式密度描述符,该描述符成功预测了肽键的跃迁电、磁偶极矩,其预测精度与第一性原理计算相当(图二)。
图二.肽键的跃迁电、磁偶极矩的机器学习预测结果
使用机器学习预测的参数构建激子哈密顿量,即可快速对角化获得蛋白质的圆二色谱响应曲线。该方法与传统的第一原理计算方案相比,大大加快了光谱模拟的速度,同时保持了第一性原理计算的精度,所预测出来的光谱与实验测量结果吻合较好(图三)。
图三.不同类型蛋白质的实验(黑色曲线)和机器学习预测(红色曲线)的圆二色谱
该模型具有高效、准确和优秀迁移能力的优点。使用该方法快速预测了Trp-cage蛋白质在折叠路径中的不同构型所对应的圆二色谱。这些光谱均反应了折叠过程中的结构变化(图四),并且对于完全折叠状态的Trp-cage(S100),该方法得到的模拟CD谱与被整体蓝移了6 nm后(相当于~0.2eV)的实验CD谱非常吻合。这些显示了这项工作所提出的机器学习模型用来进行蛋白质动力学实时圆二色谱研究的潜力。
图四. 机器学习预测的Trp-cage蛋白沿其折叠路径的圆二色谱(红色曲线)与Trp-cage完全折叠状态的实验圆二色谱(黑色曲线)
总之,该工作提出了一个具有成本效益的机器学习模型来模拟蛋白质的电子圆二色光谱。这个机器学习模型得益于新型嵌入式密度描述符,它对CD光谱的关键张量参数,即肽键的跃迁电、磁偶极矩进行了稳健而可靠的预测。该模型能够获得与各种不同蛋白质的实验结果相当的光谱,还可被用于快速预测Trp-cage不同构象的CD光谱。该模型是模拟蛋白质CD光谱的一个有前途的工具,并且可以扩展到其他领域,如近紫外光谱和二维光谱。
本项工作得到了国家自然科学基金、科技部重点专项的大力资助。博士生赵路远为该论文第一作者,张衿潇博士和张耀龙博士为共同第一作者,论文通讯作者为中国科学技术大学的江俊教授和蒋彬教授。
原文:
Accurate Machine Learning Prediction of Protein Circular Dichroism Spectra with Embedded Density Descriptors
Luyuan Zhao Jinxiao Zhang Yaolong Zhang Sheng Ye Guozhen Zhang Xin Chen Bin Jiang and Jun Jiang
JACS Au 2021 DOI: 10.1021/jacsau.1c00449