有时,一些微妙的线索就足以组合出一幅完整、坚实的图画。唉,这样的时刻很少见——事实上,如果像夏洛克·福尔摩斯那样出现并成功完成几次魔术,他们就会赢得无尽的赞誉。但如果这个伎俩可以定期上演呢?如果这个技巧不限于孤立的、狭隘的“案例”,而是适用于广泛的案例呢?结构生物学家正在思考这些问题,当他们试图猜测蛋白质和RNA分子如何折叠成3D结构时,他们通常只能利用很少的数据。
一年前,斯坦福大学的结构生物学家发表了一篇文章,可以称为“蛋白质结构案例”。(这篇文章的标题实际上是“用于选择蛋白质复合物结构模型的分层旋转等变神经网络”,出现在《蛋白质》杂志上。)最近,8月27日,他们发表了一个可以称为“TheCaseoftheCaseoftheCase”的文章。RNA结构。(这篇文章的标题实际上是“RNA结构的几何深度学习”,出现在《科学》杂志上。)
第一项研究由计算机科学副教授RonO.Dror博士领导,第二项研究由Dror和生物化学副教授RhijuDas博士共同领导。斯坦福大学博士生史蒂芬·艾斯曼(StephanEismann)和拉斐尔·汤森德(RaphaelTownshend)协助这两项研究,想必做得远远高于沃森的水平。这两项研究都表明,终极神探夏洛克人工智能(AI)可以预测3D结构。
最值得注意的是,研究人员已经证明,他们的人工智能方法即使只需要从少数已知结构中学习,也能取得成功。研究人员希望他们的方法将帮助科学家解释不同分子的工作原理,其应用范围从基础生物学研究到知情的药物设计实践。
“蛋白质是执行各种功能的分子机器,”艾斯曼说。“为了执行其功能,蛋白质经常与其他蛋白质结合。如果您知道一对蛋白质与某种疾病有关,并且您知道它们如何在3D中相互作用,那么您可以尝试用药物非常具体地针对这种相互作用。”
研究人员没有具体说明是什么使结构预测或多或少准确,而是让算法自行发现这些分子特征。他们这样做是因为他们发现提供此类知识的传统技术可能会影响算法以支持某些特征,从而阻止其找到其他信息丰富的特征。
“算法中这些手工设计的特征的问题在于,算法会偏向选择这些特征的人认为重要的东西,”艾斯曼指出。“你可能会错过一些需要做得更好的信息。”
“网络学会了寻找对分子结构形成至关重要的基本概念,但没有明确告知,”汤森德补充道。“令人兴奋的方面是,该算法清楚地恢复了我们知道重要的事情,但它也恢复了我们以前不知道的特征。”
在蛋白质研究取得成功后,研究人员将注意力转向RNA分子。研究人员在该领域长期竞赛中的一系列“RNA谜题”中测试了他们的算法,在每种情况下,该工具都优于所有其他谜题参与者,并且没有专门为RNA结构设计。
《Science》文章的作者写道:“我们引入了一种机器学习方法,尽管只使用18种已知的RNA结构进行训练,但无需假设其定义特征即可识别准确的结构模型。”“由此产生的评分函数,原子旋转等变评分器(ARES),大大优于以前的方法,并在全社区范围的盲RNA结构预测挑战中持续产生最佳结果。”
研究人员声称,他们的方法克服了标准深度神经网络的主要限制,因为它甚至可以从少量数据中有效地学习。“[我们的方法]仅使用原子坐标作为输入,并且不包含RNA特异性信息,”研究人员阐述道。“[它]适用于结构生物学、化学、材料科学等领域的各种问题。”
德罗尔指出:“机器学习领域最近取得的大部分重大进展都需要大量数据进行训练。”“在训练数据非常少的情况下,这种方法取得了成功,这一事实表明相关方法可以解决许多数据稀缺领域中未解决的问题。”
“尽管只使用少量结构进行训练,ARES仍然能够超越之前的技术水平,这表明类似的神经网络可能会在涉及3D分子结构的其他领域带来重大进展,而这些领域的数据通常有限且收集成本高昂。”《科学》杂志文章的作者总结道。“除了结构预测之外,例子还可能包括分子设计(包括蛋白质或核酸等大分子和小分子药物)、纳米粒子半导体电磁特性的估计以及合金和其他材料机械特性的预测。”
北卡罗来纳大学教堂山分校的化学教授KevinWeeks博士对ARES进行了评估。威克斯在《科学》杂志的一篇观点文章(“刺穿RNA结构组的迷雾”)中写道,“ARES仍然达不到与原子分辨率一致的水平或足以指导关键功能位点的识别或药物发现工作,但汤森德等人。在一个被证明难以实现变革性进展的领域取得了显着进展。”