快捷搜索:  汽车  科技

蛋白质神经网络序列预测:机器学习揭示红色荧光蛋白编码序列前8密码子决定翻译效率

蛋白质神经网络序列预测:机器学习揭示红色荧光蛋白编码序列前8密码子决定翻译效率

由于密码子的简并性,只有一个氨基酸序列的蛋白质可以被大量不同的核酸序列编码。密码子的优化有助于提升翻译效率,从而提高蛋白质的生产水平。然而,对其在蛋白质合成中的作用仍知之甚少。这种理解的缺乏阻碍了合成基因的设计,以用于有效地生产蛋白质。

瓦格宁根大学Nico J. Claassens等人提交在BioRxiv上的一篇“Revealing determinants of translation efficiency via whole-gene codon randomisation and machine learning”研究中,开发了一种方法来生成编码红色荧光蛋白的大的,同义密码子基因库。在大肠杆菌中表达后,测定1459个克隆的蛋白生产水平,并确定其全部编码序列。使用不同的机器学习方法,这些数据被用来揭示密码子使用和蛋白质生产之间的相关性。有趣的是,随机森林模型可以相对准确地预测蛋白质生产水平(Pearson相关性为0.762),该模型仅依赖于前8个密码子的序列信息。

本研究清楚地揭示了密码子在编码序列起始处的关键作用,通过机器学习获得的算法,仅需编码序列的2-8个密码子即可准确预测蛋白的产生。不仅为密码子使用对蛋白质生产的影响提供了重要的基础见解,而且为优化高效翻译合成基因的设计提供了相关线索。

蛋白质神经网络序列预测:机器学习揭示红色荧光蛋白编码序列前8密码子决定翻译效率(1)

(张姣 摘译)

猜您喜欢: