暗适应是视紫红质分解还是合成(NatEcolEvol.)
暗适应是视紫红质分解还是合成(NatEcolEvol.)虽然对现存蛋白质的突变分析确定了重要的功能残基,但它们很少识别在蛋白质之间切换功能所需的残基组合。因此,它们不能揭示新功能出现的进化路径。祖先序列重建(ASR)已经成为确定古代蛋白质序列和识别导致进化谱系功能变化的氨基酸替换的有用技术。它复活的蛋白质可以在实验室中进行直接测试。ASR使用现有序列、系统发育树和进化模型来计算每个序列位置和每个祖先节点的边际后验概率。(三)祖先序列重建(二)旁系同源进化基因重复是真核生物进化中功能新颖性的主要来源。与可能在从共同祖先辐射的物种中占据相同或相似功能生态位并受到纯化选择的直系同源基因不同,经历新功能化的旁系同源物独立积累适应性突变,但由于严格的选择限制而保持高度的序列相似性。因此,仅基于序列相似性的旁系同源物的功能预测可能很复杂,并且容易产生歧义。因此,结构信息可以为基因旁系同源物的功能推断增加一个重要维度。由于其在基因组进化中的中心地位,旁系同源
大家好,今天推送的文章来自于2021年7月发表在Nature ecology & evolution上的一篇comment:Predicting 3D protein structures in light of evolution。
要理解遗传变异的进化结果,需要在突变、表型和适应度之间建立清晰的联系。基因的具体变化需要映射到表型空间的多个层面上,从蛋白质的物理化学性质、生物过程和途径,到生物体层面。深度突变扫描(DMS)和实验进化等技术使得开展了大量的关于遗传变异对表型和适应性的影响的研究。然而,这些技术往往停留在蛋白质功能和生物体适应性上,而忽略了特定氨基酸替换导致功能和适应性变化的结构机制。结构信息的缺乏阻碍了我们理解突变导致进化变化的机制的能力。而AlphaFold2的出现可能会使这一问题得到解决。该文章中,作者讨论了AlphaFold2的潜在优势和局限性,集中在突变适应度效应的分布、旁系同源进化和祖先序列重建上。
(一)突变适应度效应的高通量评估
突变对蛋白质性质的影响通常很难预测。远离结合或活性位点的突变会极大地影响蛋白质的功能。相反,高度保守位置的突变并不总是导致不稳定或功能丧失。此外,由于上位性或多效性效应,基因内部和基因之间的突变组合也可能导致不可预测活性变化。DMS,可以测量蛋白质中每个位置(或组合)上所有可能的氨基酸突变的功能和适合性结果。这种方法产生了大量的实验数据集,补充了蛋白质序列-功能-适应度之间关联的理解。然而,解析通过DMS产生的大量突变体的3D结构是不现实的。AlphaFold2出现可能会以超过任何其他可用的算法的精确度来解决这一问题,实现捕捉每一个单一突变引起的微妙的结构变化。作者设想,将实验表征的适应度变化以及预测的3D结构联系起来可能会产生更大的突破,可能能将二者更直接地联系起来。此外,DMS适应度测量本身可以潜在地纳入AlphaFold2预测算法,这可能会提高预测的突变结构的分辨率,以及突变的潜在不稳定影响。事实上,通过DMS得到的双突变被证明是涉及3D结构中的直接相互作用残基,从而进一步有助于结构改进。
(二)旁系同源进化
基因重复是真核生物进化中功能新颖性的主要来源。与可能在从共同祖先辐射的物种中占据相同或相似功能生态位并受到纯化选择的直系同源基因不同,经历新功能化的旁系同源物独立积累适应性突变,但由于严格的选择限制而保持高度的序列相似性。因此,仅基于序列相似性的旁系同源物的功能预测可能很复杂,并且容易产生歧义。因此,结构信息可以为基因旁系同源物的功能推断增加一个重要维度。由于其在基因组进化中的中心地位,旁系同源基因功能差异已被大量研究。这些研究表明,旁系同源物的功能差异发生在表型空间的多个水平上:蛋白质特性、表达水平、生物体生长。然而,这些研究明显忽略了旁系同源物功能多样化背后的结构与功能的关系,主要是因为大多数旁系同源物对的结构覆盖不完整 并且由于序列相似度高,旁系同源蛋白的全局折叠预计将保持不变。
如果 AlphaFold2 成功预测旁系同源蛋白质对之间的高分辨率结构差异,并响应结构基因组计划,这可能会极大地推动旁系同源蛋白的进化研究。这些方法大致分为三类。一是生成功能残基(例如,催化或结合残基)的局部模板,这些模板依次与整个结构对齐。当可以对旁系同源物对中的一种蛋白质进行结构和功能表征时,这种方法可能特别有用。二是利用结构计算来检测表面斑块的不同物理化学特征。这些方法可用于检测新的功能位点,例如配体结合,可以帮助确定旁系同源物的功能差异。三是确定远离蛋白质超家族核心折叠的二级结构基序。这些基序被证明负责蛋白质超家族内的功能转变。由于预期旁系同源物会保留一般折叠,因此识别旁系同源物的小结构基序可能非常有效。
(三)祖先序列重建
虽然对现存蛋白质的突变分析确定了重要的功能残基,但它们很少识别在蛋白质之间切换功能所需的残基组合。因此,它们不能揭示新功能出现的进化路径。祖先序列重建(ASR)已经成为确定古代蛋白质序列和识别导致进化谱系功能变化的氨基酸替换的有用技术。它复活的蛋白质可以在实验室中进行直接测试。ASR使用现有序列、系统发育树和进化模型来计算每个序列位置和每个祖先节点的边际后验概率。
然而,作为一种统计推断,ASR也存在缺陷。由于ASR准确性取决于现有蛋白质序列的比对情况,通过AlphaFold2获得可靠的3D结构很有可能提高ASR的准确性,例如,通过更好地管理序列gap(图1A)以及调整序列进化模型。进化模型需要蛋白质替换矩阵来定义同源位点氨基酸替换的相对速率。最常用的矩阵的主要限制是假设蛋白质中的所有位点都按照相同的速率进化。但氨基酸的替换倾向在不同的结构区域之间有很大的不同。3D结构的知识可以促进多个替代矩阵的生成,以表示感兴趣的蛋白质家族中不同氨基酸位点的可变性(图1B)。AlphaFold2允许生成针对没有可用结构的蛋白质量身定做的结构替换矩阵。目前使用的ASR进化模型的另一个缺点是明确假设每个给定蛋白质位置的进化是独立进行的。相反,蛋白质中的多个位置倾向于共同进化,例如在3D结构中形成直接接触的位置。因此,结构信息对于解释所选进化模型中位点之间的共同进化非常有用。
ASR不可避免地在重建的祖先序列的几乎每个位置产生一定程度的不确定性。为了克服这种不确定性,应该直接从后验概率分布中采样足够多的祖先序列进行实验表征,然而成本昂贵、复活蛋白成功率等问题增加了研究难度。采样序列的结构表征可能能潜在地解决上述问题。现在可以使用结构分析来减少给定蛋白质序列中未解析位置上氨基酸残基的问题;例如,可以从预测的序列中省略导致空间冲突的残基(图1C)。此外,估计突变的功能影响的算法,如基于结构的分子亲和力预测,可以帮助描述蛋白质功能的古老变化,并最终减少用于实验验证的序列数量。
(四)三维结构预测的局限性
仅从 3D 结构推断蛋白质表型的难度可以通过比较同源 S-腺苷甲硫氨酸 (SAM) 合成酶的二聚化来证明(图 2)。SAM 合成酶是一种同源二聚体或四聚体关键代谢酶,存在于生命的所有领域。单体亚基的结构高度保守,可以通过 AlphaFold2 准确预测(图 2a)。在细菌中,同源二聚体倾向于组装成四聚体(二聚体的二聚体)结构。然而,四聚体的稳定性因细菌种类而异,二聚体之间界面的大小和组成存在显着差异,(图 2b)。因此,即使可以正确预测各种 SAM 合成酶的二聚体间界面的大小和组成,也不能保证对其体内寡聚状态的准确推断。二聚体间界面内 SAM 分子的变构结合位点因此无法预测。既不可能从预测的结构中推导出 SAM 结合对 SAM 合成酶活性的调节影响,也无法预测同四聚体随后的动力学稳定性。包括AlphaFold2在内的结构预测算法的另一个局限性就是它们努力生成单一的静态蛋白质结构。然而,单个蛋白质序列在发挥功能时可以呈现一系列构象状态。
(五)未来的方向
虽然目前3D结构预测存在局限性,但基于人工智能的技术的高度可塑性潜在地允许在结构预测算法中纳入各种类型的实验数据。作者建议,将蛋白质突变与表型和适应性联系起来的大量功能基因组数据应该成为预测算法的固有组成部分。例如,序列共同进化分析,这是AlphaFold算法考虑的特征之一,理论上可以应用于实验验证的存在相互作用的蛋白质的同源对。这样的分析可以预测功能性蛋白质-蛋白质相互作用的结构基础,然后可以进行实验验证。此外,一旦结构预测超越了单一的静态结构,结构预测对功能进化研究的贡献应该会大大增加。将序列共同进化数据与分子动力学相结合的这一方向的早期尝试已经初显成效。
最后,作者提议,基于人工智能的算法,如AlphaFold2,还没有广泛赢得科学界的信任。为了加快这一过程,应该将最初的结构预测工作应该集中在已经对其进行功能/表型表征的蛋白质上。
END