快捷搜索:  汽车  科技

人工智能预测蛋白结构数据库(对标AlphaFoldMeta预测6亿蛋白质结构)

人工智能预测蛋白结构数据库(对标AlphaFoldMeta预测6亿蛋白质结构)一般来说,要想开发一个语言模型,需要海量的文本来充当训练数据。Meta AI 蛋白质团队的研究人员将一个蛋白质序列看作一段文本,把由 20 种不同氨基酸组成的蛋白质的已知序列“喂”给语言模型。其中,值得一提的是,每个氨基酸链由一个字符表示。其实,Meta AI 推出的全新蛋白质折叠方法,是基于对大型语言模型的训练后,首次实现对蛋白质结构进行完善预测的方法。基于当下先进的基因测序技术,相关领域的科研人员们已能揭示十亿规模以上的宏基因组蛋白质序列。作为自然科学的前沿领域,宏基因组学可借助基因测序,发现样本中所含的蛋白质,这些样本来自土壤、海洋、人体肠道等地球各种环境中。借助 EMS 数据库,Meta AI 能完成上亿规模的宏基因组蛋白质结构的预测和分析,这不仅有利于识别从未被表征过的结构,探索更多进化奥秘,还有利于发现能为医学所用的全新蛋白质。Meta AI 蛋白质团队的研究负责人亚历山大·里

人工智能预测蛋白结构数据库(对标AlphaFoldMeta预测6亿蛋白质结构)(1)

日前,Meta AI 宣布其已经绘制了一个包含 6.17 亿个蛋白质结构的 ESM 宏基因组图谱(ESM Metagenomic Atlas)。

利用 Meta AI 推出的全新蛋白质折叠方法,即 AI 大型语言模型,该研究团队可在 2 周时间内,成功地预测 ESM 数据库中所有的蛋白质结构。不仅如此,该模型还可应用于规模更庞大的数据库。

目前,Meta AI 已开源其数据库和大型语言模型,并为科学家们提供了一个方便检索特定蛋白质结构的应用程序接口。

人工智能预测蛋白结构数据库(对标AlphaFoldMeta预测6亿蛋白质结构)(2)

图丨ESM 宏基因组图谱(来源:Meta AI)

基于当下先进的基因测序技术,相关领域的科研人员们已能揭示十亿规模以上的宏基因组蛋白质序列。作为自然科学的前沿领域,宏基因组学可借助基因测序,发现样本中所含的蛋白质,这些样本来自土壤、海洋、人体肠道等地球各种环境中。

借助 EMS 数据库,Meta AI 能完成上亿规模的宏基因组蛋白质结构的预测和分析,这不仅有利于识别从未被表征过的结构,探索更多进化奥秘,还有利于发现能为医学所用的全新蛋白质。

Meta AI 蛋白质团队的研究负责人亚历山大·里夫斯(Alexander Rives)表示:“这些是我们所知甚少的结构,是非常神秘的蛋白质。我认为它们为深入了解生物学提供了很大的潜力。”

其实,Meta AI 推出的全新蛋白质折叠方法,是基于对大型语言模型的训练后,首次实现对蛋白质结构进行完善预测的方法。

一般来说,要想开发一个语言模型,需要海量的文本来充当训练数据。Meta AI 蛋白质团队的研究人员将一个蛋白质序列看作一段文本,把由 20 种不同氨基酸组成的蛋白质的已知序列“喂”给语言模型。其中,值得一提的是,每个氨基酸链由一个字符表示。

蛋白质序列中包含了一种统计模式,可以传递与蛋白质结构相关的信息,这意味着 Meta AI 团队可以通过观察蛋白质序列中的模式,来完成对蛋白质结构的推断。

所以,为了让语言模型可以完成对蛋白质结构和功能等性质的学习,该团队的研究人员使用掩码语言建模这种自监督学习方式,在数百万个蛋白质序列上对这个语言模型进行训练。

人工智能预测蛋白结构数据库(对标AlphaFoldMeta预测6亿蛋白质结构)(3)

图丨大型语言模型(来源:Meta AI)

然而,要想使用这种机器学习方法,模型必须具备正确填充文本段落缺失部分的能力。为了完成填充蛋白质序列中缺失部分的任务,研究人员训练了一个涵盖数百万种不同蛋白质的序列的语言模型,并发现在训练过程中可以产生与蛋白质结构和功能相关的信息。

里夫斯说:“这种训练能让网络更加直观理解蛋白质序列,这些序列包含有关其形状的信息。我们受到 DeepMind 推出的 AI AlphaFold 的启发,并结合已知蛋白质结构和序列之间关系的信息,根据蛋白序列预测蛋白结构。”

人工智能预测蛋白结构数据库(对标AlphaFoldMeta预测6亿蛋白质结构)(4)

图丨揭示庞大的完全未知的蛋白质结构空间(来源:Meta AI)

早在 2020 年,Meta AI 就发布了一款拥有较强性能的蛋白质语言模型 ESM1b,它已经在包括预测 COVID-19 的进化、发现疾病遗传原因等多个领域中得到应用。

如今,Meta AI 开发了规模更大的全新蛋白质语言模型 ESM-2,该模型拥有 150亿个参数,是截至目前世界最大的蛋白质语言模型。

该团队也表示:“当模型的参数从 800 万扩大到 150 亿时,可实现原子级别的 3D 结构预测,且预测速度最快能达到 60 倍。”

Meta AI 进一步解释道:事实上,这种新的结构预测能力使我们能够在 2 周内,在大约 2000 个 GPU 集群上预测超过 6 亿个宏基因组蛋白的序列。

里夫斯还表示,Meta AI 已经免费开源了这个模型,有需要的人都可以使用它。

另外,还需要关注的一点是,这个大型语言模型在对这 6.17 亿个蛋白质结构的预测中,有超过三分之一的预测是高质量的。

同时,其中有几百万个结构都是全新的,不同于已经实验确定过的蛋白质结构数据库和 AlphaFold 这种在科学上已知的蛋白质结构数据库。

首尔国立大学的计算生物学家马丁·施泰因格(Martin Steinegger)认为:“AlphaFold 数据库的很大一部分是由彼此几乎完全相同的结构组成,而 ESM 宏基因组数据库应该涵盖了庞大的以前从未见过的蛋白质结构。”

目前,为了更好地扩展这项研究,Meta AI 还将探索如何利用语言模型设计全新的蛋白质。

总地来说,希望 ESM 宏基因组数据库和大型语言模型的推出,可以推动科学更好地向前进,为疾病治疗、保持健康、保护环境等作出贡献。

支持:Bao

参考资料:

https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/

https://www.nature.com/articles/d41586-022-03539-1

https://www.engadget.com/metas-newest-ai-figures-out-proper-protein-folds-60-times-faster-150006068.html

由 DeepTech 携手《麻省理工科技评论》重磅推出的《科技之巅:全球突破性技术创新与未来趋势(20 周年珍藏版)》已开启预售!点击下方海报可预购图书!

人工智能预测蛋白结构数据库(对标AlphaFoldMeta预测6亿蛋白质结构)(5)

人工智能预测蛋白结构数据库(对标AlphaFoldMeta预测6亿蛋白质结构)(6)

猜您喜欢: