描述统计的三大工具(一个新的统计工具照亮了曾经是黑匣子的地方)
描述统计的三大工具(一个新的统计工具照亮了曾经是黑匣子的地方)该论文的合著者之一、NIST物理学家大卫·罗斯(DavidRoss)说:“很难理解DNN是如何做出预测的。”。“如果你想用这些预测来设计新的东西,这是一个大问题。”由于涉及的数据量巨大,DNN的任务是通过数据采样进行排序,并预测需要翻转哪些碱基对。在这方面,只要你不要求解释他们是如何得到答案的,他们就证明是成功的。它们通常被描述为“黑匣子”,因为它们的内部工作机制是难以理解的。NIST团队正在解决的问题可能被认为是与一台复杂的机器进行交互,这台机器运行着一个巨大的控制面板,里面装满了数千个未标记的开关:该设备是一个基因,一条编码蛋白质的DNA链;开关是绞线上的碱基对。这些开关都会以某种方式影响设备的输出。如果你的工作是让机器以不同的方式工作,你应该翻转哪些开关?因为答案可能需要改变多个碱基对,科学家必须翻转它们的一些组合,测量结果,然后选择一个新的组合并再次测量。排列的数量令人望而生畏。托
国家标准与技术研究所(NIST)的研究人员开发了一种新的统计工具,用于预测蛋白质功能。它不仅可以帮助以实际有用的方式改变蛋白质这项艰巨的工作,而且还可以通过完全可解释的方法工作,这比过去帮助蛋白质工程的传统人工智能(AI)具有优势。
这项名为LANTER的新工具可能在从生产生物燃料到改善作物,再到开发新的疾病治疗方法等领域都很有用。蛋白质作为生物学的组成部分,是所有这些任务中的关键元素。但是,虽然改变作为特定蛋白质蓝图的DNA链相对容易,但要确定DNA阶梯上的哪些特定碱基对是产生所需效果的关键,仍然具有挑战性。寻找这些关键点一直是由深度神经网络(DNN)构建的人工智能的权限,这种网络虽然有效,但众所周知对人类的理解是不透明的。
LANTERN在《美国国家科学院院刊》上发表的一篇新论文中指出,LANTERN能够预测在三种不同蛋白质中产生有用差异所需的基因编辑。一种是SARS-CoV-2病毒表面的刺状蛋白,可导致2019冠状病毒疾病;了解DNA的变化如何改变这种棘突蛋白可能有助于流行病学家预测大流行的未来。另外两个是著名的实验室工作人员:来自大肠杆菌的LacI蛋白和在生物学实验中用作标记的绿色荧光蛋白(GFP)。通过选择这三个主题,NIST团队不仅可以证明他们的工具是有效的,还可以证明其结果是可解释的,这是行业的一个重要特征,行业需要有助于理解基础系统的预测方法。
NIST统计学家和计算生物学家彼得·托纳(PeterTonner)表示:“我们有一种完全可解释的方法,而且预测能力也不会下降。”。“人们普遍认为,如果你想要这些东西中的一件,你就不能拥有另一件。我们已经证明,有时,你可以两者兼得。”
NIST团队正在解决的问题可能被认为是与一台复杂的机器进行交互,这台机器运行着一个巨大的控制面板,里面装满了数千个未标记的开关:该设备是一个基因,一条编码蛋白质的DNA链;开关是绞线上的碱基对。这些开关都会以某种方式影响设备的输出。如果你的工作是让机器以不同的方式工作,你应该翻转哪些开关?
因为答案可能需要改变多个碱基对,科学家必须翻转它们的一些组合,测量结果,然后选择一个新的组合并再次测量。排列的数量令人望而生畏。
托纳说:“潜在组合的数量可能大于宇宙中原子的数量。”。“你永远无法衡量所有的可能性。这是一个可笑的大数字。”
由于涉及的数据量巨大,DNN的任务是通过数据采样进行排序,并预测需要翻转哪些碱基对。在这方面,只要你不要求解释他们是如何得到答案的,他们就证明是成功的。它们通常被描述为“黑匣子”,因为它们的内部工作机制是难以理解的。
该论文的合著者之一、NIST物理学家大卫·罗斯(DavidRoss)说:“很难理解DNN是如何做出预测的。”。“如果你想用这些预测来设计新的东西,这是一个大问题。”
另一方面,灯笼被明确设计为可以理解的。它的部分可解释性源于它使用可解释的参数来表示它所分析的数据。LANTERN的计算中的每个参数都有一个直观的目的,帮助用户理解这些参数的含义以及它们如何影响LANTERN的预测,而不是像DNN那样让这些参数的数量变得异常庞大且往往难以理解。
灯笼模型使用向量表示蛋白质突变,向量是广泛使用的数学工具,通常被形象地描绘为箭头。每个箭头都有两个特性:其方向表示突变的影响,而其长度表示这种影响的强度。当两种蛋白质有指向同一方向的载体时,LANTERN表明这两种蛋白质具有相似的功能。
这些载体的方向通常映射到生物机制上。例如,LANTERN在团队研究的所有三个数据集中都学会了与蛋白质折叠相关的方向。(折叠在蛋白质的功能中起着至关重要的作用,因此在数据集中识别这一因素表明模型的功能符合预期。)在进行预测时,LANTERN只是将这些向量相加,用户可以在检查其预测时跟踪这种方法。
其他实验室已经使用DNN来预测开关翻转会对三种受试蛋白质产生哪些有用的变化,因此NIST团队决定将LANTERN与DNN的结果进行对比。新方法不仅足够好;据该团队称,它在预测此类问题的准确性方面达到了最新水平。
“LANTERN在预测准确性方面与几乎所有的替代方法持平或优于,”Tonner说。“它在预测LacI变化方面优于所有其他方法,除一种方法外,它对所有GFP的预测准确率都相当。对于SARS-CoV-2,它比除一种DNN以外的所有替代方法的预测准确率都高,与LANTERN的准确率相匹配,但没有超过它。”
LANTERN指出了哪些开关对蛋白质的特定属性(例如折叠稳定性)影响最大,并总结了用户如何调整该属性以达到所需的效果。在某种程度上,LANTERN将我们机器面板上的许多开关转换为几个简单的拨号盘。
罗斯说:“它可以将数千个开关减少到五个小刻度盘。”。“它告诉你第一个刻度盘会产生很大的影响,第二个刻度盘会产生不同的影响,但会更小,第三个甚至更小,依此类推。所以作为一名工程师,它告诉我可以专注于第一个和第二个刻度盘,以获得我需要的结果。LANTERN为我列出了所有这些,这非常有用。”
麻省理工学院林肯实验室的科学家拉赫蒙达·卡塞雷斯(RajmondaCaceres)熟悉提灯背后的方法,她说她重视该工具的可解释性。
“没有很多人工智能方法应用于生物学应用中,它们明确设计为可解释性,”卡塞雷斯说,他不属于NIST的研究。“当生物学家看到结果时,他们可以看到是什么突变导致了蛋白质的变化。这种水平的解释允许进行更多的跨学科研究,因为生物学家可以理解算法是如何学习的,他们可以对正在研究的生物系统产生进一步的见解。”
托纳说,尽管他对结果感到满意,但灯笼灯并不是解决人工智能可解释性问题的灵丹妙药。他说,更广泛地探索DNN的替代品将有助于创建可解释、可信的AI。
托纳说:“在预测基因对蛋白质功能的影响方面,LANTERN是第一个在预测能力上可以与DNN相媲美,但仍能完全解释的例子。”。“它为特定的问题提供了一个特定的解决方案。我们希望它可以应用于其他人,并希望这项工作能够激发新的可解释方法的发展。我们不希望预测性人工智能仍然是一个黑匣子。”