COVID-19相关蛋白结构的计算预测【转】

Submitted by neurta on Fri, 03/06/2020 - 10:00
deepmind,蛋白质分析

科学界对最近的COVID-19病毒爆发作出了反应,建立在数十年来对该病毒家族特征的基础研究之上。处于疫情应对前沿的实验室在开放存取数据库中共享病毒的基因组,这使得研究人员能够快速开发这种新病原体的测试。其他实验室共享了一些病毒蛋白的实验测定和计算预测结构,还有一些实验室共享了流行病学数据。我们希望通过发布与SARS-CoV-2相关的几个未充分研究的蛋白质的结构预测,利用我们最新版本的字母折叠系统为科学研究做出贡献,SARS-CoV-2是导致COVID-19的病毒。我们强调,这些结构预测尚未得到实验验证,但希望它们能有助于科学界对病毒如何发挥作用的质疑,并为今后开发治疗学的实验工作提供一个假设生成平台。我们感谢许多其他实验室的工作:如果没有全球研究人员的努力,这项工作是不可能的,他们对COVID-19的爆发做出了不可思议的敏捷反应。

了解蛋白质的结构为了解其功能提供了重要的资源,但确定其结构的实验可能需要数月或更长的时间,有些实验证明是棘手的。为此,研究人员一直在开发从氨基酸序列预测蛋白质结构的计算方法。在类似蛋白质的结构已经被实验确定的情况下,基于“模板建模”的算法能够提供蛋白质结构的准确预测。AlphaFold,我们最近出版的深度学习系统,专注于在没有类似蛋白质结构可用时准确预测蛋白质结构,称为“自由建模”。自那篇文章发表以来,我们一直在改进这些方法,并希望提供最有用的预测,因此我们共享了使用我们新开发的方法生成的SARS-CoV-2中一些蛋白质的预测结构。

 

值得注意的是,我们的结构预测系统仍在开发中,我们无法确定我们提供的结构的准确性,尽管我们相信该系统比我们早期的CASP13系统更精确。我们证实,我们的系统为实验测定的SARS-CoV-2蛋白数据库中共享的峰蛋白结构提供了准确的预测,这使我们相信我们对其他蛋白的模型预测可能是有用的。我们最近与英国Francis Crick研究所的几位同事分享了我们的研究结果,其中包括结构生物学家和病毒学家,他们鼓励我们现在就向一般科学界发布我们的结构。我们的模型包括每残基的置信分数,以帮助指出结构的哪些部分更可能是正确的。我们只提供了缺乏合适模板或模板建模困难的蛋白质的预测。虽然这些未被研究的蛋白质不是目前治疗工作的主要焦点,但它们可能会增加研究人员对SARS-CoV-2的了解。

 

一般情况下,我们会等到这篇文章被学术期刊同行评议后再发表。然而,考虑到这种情况的潜在严重性和时间敏感性,我们将在一个开放的许可证下发布我们现在拥有的预测结构,以便任何人都可以利用它们。

 

感兴趣的研究人员可以在这里下载这些结构,并可以在数据附带的文档中阅读有关这些预测的更多技术细节。要强调的是,这些都是未经实验验证的预测结构。该系统的工作仍在继续,我们希望在适当的时候分享更多。

 

引文:John Jumper、Kathryn Tunyasuvunakool、Pushmeet Kohli、Demis Hassabis和AlphaFold团队,“与COVID-19相关的蛋白质结构的计算预测”,DeepMind网站,2020年3月5日,https://DeepMind.com/research/open-source/Computational-predictions-of-protein-structures-associated-with-COVID-19

 

 

谷歌人工智能部门DeepMind刚刚发布了与冠状病毒(COVID-19)相关的蛋白质结构预测。

这些预测来自于DeepMind新的深度学习系统,但还没有得到实验验证,DeepMind在一篇宣布他们发现的博客中指出。

DeepMind表示,通常会等待学术期刊对调查结果进行审查,但考虑到“潜在的严重性和时间敏感性”,它会跳过这一过程

谷歌人工智能部门DeepMind正加入全球行动,进一步了解COVID-19,因为该疾病在全球大部分地区迅速蔓延。

 

这个位于英国的团队刚刚使用了DeepMind的新深度学习系统,分享了他们对导致这种疾病的冠状病毒蛋白质结构的预测。该系统使用一种称为“自由建模”的机器学习技术,当没有相似的蛋白质结构可用时,帮助它预测蛋白质结构。

 

全世界的科学家都在竞相了解这种新的冠状病毒,这种病毒已经席卷了中国,并在其他86个国家传播,最后统计。截至周四,中国大陆以外地区至少已有288人死亡。

DeepMind的发现希望能减少几个月来通常用于确定病毒蛋白质结构的工作。

 

“了解蛋白质的结构为了解其功能提供了重要的资源,但确定其结构的实验可能需要数月或更长的时间,有些实验证明是棘手的,”一篇宣布这一发现的博客文章指出。

鉴于“这种情况的潜在严重性和时间敏感性”,DeepMind表示,它正在跳过实验性验证研究结果的过程,或者等待学术期刊在发表之前对其进行同行评议。这与其他的科学研究是一致的,这些研究已经出现在同行评议的期刊和没有同行评议的印前服务器上,因为这一过程可能需要几个月的时间。

 

博文说:“我们强调,这些结构预测尚未经过实验验证,但希望它们能有助于科学界对病毒如何发挥作用的质疑,并成为未来开发治疗学实验工作的假设生成平台。”。

 

“一般情况下,我们会等到这部作品被学术期刊同行评议后再发表。然而,考虑到这种情况的潜在严重性和时间敏感性,我们正在公开许可证下发布我们现在拥有的预测结构,以便任何人都可以利用它们。

开放式许可证将允许任何研究人员在DeepMind的研究成果基础上进行开发、改编或分享。

 

早在2014年,谷歌就以4亿英镑的价格收购了总部位于伦敦的研究机构DeepMind。该公司此前曾利用人工智能推动医疗领域的进步,开发出识别眼部疾病和检测颈部癌症的模型。

这些预测是开源的,允许任何研究人员建立、改编或分享DeepMind的发现。

访问Business Insider的主页了解更多故事。

 

更多详情请参见本文:https://deepmind.com/research/open-source/computational-predictions-of-protein-structures-associated-with-COVID-19

 

联系covid-structure-predictions@deepmind.com获取任何技术咨询。

 

这项工作可引称为:

 

John Jumper、Kathryn Tunyasuvunakool、Pushmeet Kohli、Demis Hassabis和AlphaFold团队,“与COVID-19相关的蛋白质结构的计算预测”,DeepMind网站,2020年3月5日,https://DeepMind.com/research/open-source/Computational-predictions-of-protein-structures-associated-with-COVID-19

 


一般说明

 

SARS-CoV-2序列取自UniProt预发行版下载(ftp://ftp.UniProt.org/pub/databases/UniProt/pre_release/,2020年2月28日)。

对于包含在复制酶多蛋白1ab(R1AB_WCPV)中的蛋白质,残基索引从每个处理链开始的1开始。

结构文件中省略了N和C端没有可靠预测结构的区域。

结构B因子包含1-3范围内的整数值。1代表最高的模型置信度,3代表最低的模型置信度。

 


关于个别预测的注记

 


M_蛋白

UniProt VME1_WCPV,包括残基11-203。

 

蛋白质

UniProt AP3A_WCPV,包括残基38-233。

残留量范围163-197208-233的不确定度。

 

Nsp2号

UniProt R1AB_WCPV,对应于残基181-818。

残基346-437(预测PDB索引)中存在很大的不确定性,因此这些残基的坐标不包含在结构文件中。

 

PL-PRO C终端域

UniProt R1AB_WCPV,对应于残基2389-2745。

由于该地区似乎不属于瑞士模式。

 

Nsp4号

UniProt R1AB_WCPV,对应于残基2764-3252。

域之间的不确定性最高。

 

Nsp6号

UniProt R1AB_WCPV,对应于残基3570-3847。

残基84-132和238-278相对于结构其余部分位置的不确定性(预测PDB索引)。

 


许可和免责声明

 

版权所有(2020)深心科技有限公司

结构预测和元数据在CC-BY 4.0许可证(https://creativecommons.org/licenses/BY/4.0/)下发布。提供的信息仅为理论模型,使用时应谨慎。它的目的仅仅是作为一种资源,为广大科学界在进一步了解SARS-CoV-2。