围棋后人工智能再胜人类，这次是预测“难缠”的蛋白质结构® -网聚医学的力量

围棋后人工智能再胜人类，这次是预测“难缠”的蛋白质结构

作者：徐路易来源：澎湃新闻日期：2018-12-04

导读

2017年5月，AlphaGo在中国乌镇围棋峰会上以3：0战胜排名世界第一的围棋冠军柯洁后，光荣退役。彼时，AlphaGo的设计团队、来自谷歌旗下的人工智能企业DeepMind表示，AlphaGo将不会再参加其他比赛，但是会Alpha会在其他新领域不断探索并有所开拓。

关键字：人工智能 | 人类 | 蛋白质结构 | |

2018年，DeepMind带着Alpha家族的新成员AlphaFold来挑战新领域：通过基因序列预测蛋白质三维结构。

12月2日，DeepMind最新的人工智能程序AlphaFold与另外97支队伍参与了在墨西哥坎昆举行的全球蛋白质结构预测竞赛。首次参加国际比赛的AlphaFold在最艰难的“预测蛋白质三维结构”的任务中，排名第一。

不仅排名第一，第二名的准确率与AlphaFold相差甚远。在AlphaFold预测的 43 种蛋白质中，有 25 种蛋白质的结构最准确，而排名第二的团队中只有3种。

“于我们而言，这是一个非常关键的时刻。对于解决现实世界重要的科学问题，AlphaFold是一个灯塔项目。” DeepMind联合创始人兼首席执行官戴密斯·哈萨比斯(Demis Hassabis)在比赛结束后旋即发推特表示。

此次AlphaFold夺第一的全球蛋白质结构预测竞赛(CASP)，由美国科学家约翰·莫尔特(John Moult)于 1994 年发起，每两年举办一届，被认为是蛋白质结构领域“奥林匹克竞赛”。

蛋白质(protein)是构成细胞的基本有机物，是所有生命的物质基础。人体组织的细胞需要不断更新，要求蛋白质不断地提供更新的“原料”。因此可以说没有蛋白质，也就没有生命。

“久攻不下”的蛋白质折叠

“一直以来我的梦想就是，利用人工智能帮助科学家解决宏大的问题，并让我们更好地理解这个世界。”哈萨比斯表示，蛋白质是一切生命的物质基础，预测其3D结构是生物学中的重要挑战，这将影响人们对疾病理解和药物发现。

蛋白质基本的组成单位是氨基酸。整个地球生命系统中仅有的20多种氨基酸，构成了数万至数亿种不同的蛋白质。蛋白质的种类很多，性质、功能各异。蛋白质的三维结构取决于它所含氨基酸的数量和类型，结构也决定了蛋白质在体内的作用。比如，构成免疫系统的抗体蛋白质是“Y形”的，类似于一个钩子。通过锁定病毒和细菌，抗体蛋白能够检测和标记引起疾病的微生物，并进行消灭;而胶原蛋白的形状像绳索，其在软骨、韧带、骨骼和皮肤之间传递张力。

此外，蛋白质的折叠包含了很多作用，比如蛋白质四级结构折叠受到大量包括氢键、离子键、疏水作用等非共价相互作用的影响。因此想要从分子水平上了解蛋白质的作用机制，就需要精确测出蛋白质的三维结构。

从理论上来说，知道了 DNA 序列，就已经决定了其能够翻译出的氨基酸序列和蛋白质结构，但是仅从基因序列中找出蛋白质的三维形状是一项非常艰巨的任务。蛋白质越大，模型就越复杂和困难，因为氨基酸之间可能存在很多的相互作用，因此中间涉及的计算难以想象。黎文索尔悖论指出，需要比宇宙形成更长的时间才能计算出蛋白质所有的可能结构，从而得到正确的三维结构。

在过去60年间发展起来的结构生物学，已经采用了包括X射线晶体学、核磁共振、冷冻电镜等技术来解析蛋白质结构。但DeepMind团队认为，这些传统方法都依赖于大量的实验和试错，同时研究每个结构的成本大概需要耗费数万美元。这一耗时又费力的任务，最适合用人工智能解决。加之近几年基因测序成本的快速降低，基因组学领域的数据非常丰富。因此，人工智能已经具备了通过基因组数据进行深度学习从而做出预测的条件。

DeepMind团队介绍，AlphaFold使用神经网络预测物理特性，这些神经网络经过训练可以从蛋白质的基因序列中预测蛋白质的特性，比如氨基酸对之间的距离和，以及连接这些氨基酸的化学键之间的角度。接着，AlphaFold调整结构以找到最高效的氨基酸排布。该程序花了两周时间预测第一个蛋白质结构，但现在只需几个小时就能将其预测出来。

DeepMind团队训练了一个神经网络来预测蛋白质中每对残基之间的距离的单独分布。然后将这些概率组合成一个分数，以评估所设想的蛋白质结构有多准确。此外还训练了一个单独的神经网络，汇总了所有氨基酸之间的距离和，来估计设想的蛋白质结构与正确答案的接近程度。

利用这些评估功能，AlphaFold能够检索所有的蛋白质图景，从而找到与研究设想相匹配的结构。DeepMind团队设计的第一种方法建立在结构生物学常用的技术上，对于蛋白质结构中的某一片段反复用新的蛋白质片段替换。这样训练出来的神经网络就可以发明新的蛋白质片段，从而不断提高设想的蛋白质结构的得分。

第二种方法就是通过梯度下降优化得分。这是一种在机器学习中常用的数学技术，通过进行微小而渐进的改进一步步使结构实现高度精确。这套技术应用于对整个蛋白质链的预测，而不是用于蛋白质结构组装之前单独折叠的碎片，因此从技术上来讲降低了整个预测过程的复杂性。

对于AlphaFold的首战告捷，哈萨比斯在激动之余，也提出了自己的期望：“对我们来说，还有很多工作要做。我们还没有解决蛋白质折叠问题，预测只是第一步。”

Alpha家族：从陪人下棋到探索生命

谷歌DeepMind研发的人工智能Alpha系列，第一次为人们熟知是2016年3月，AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，最终以4比1的总比分获胜。2016年末2017年初，AlphaGo在中国棋类网站上以“大师”(Master)的注册帐号，与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩。

2017年12月，DeepMind团队公布了“棋类全才”AlphaZero。该程序从零开始训练，4小时打败国际象棋的最强程序Stockfish，2小时打败日本将棋的最强程序Elmo，8小时打败与李世石对战的AlphaGo v18。

在“解决了一切棋类”之后，人工智能在更为复杂、甚至让人类也头痛不已的问题上是否能取得实质性的发展?

实际上2018年初，神经科学家、清华大学教授鲁白曾向媒体提到，生命科学领域到目前为止还没有受到人工智能的影响，而这也将会是产生新机会的沃土。

2018年5月，DeepMind团队先后在《自然》和《自然-神经科学》上发表论文，其开发出了一个人工智能程序具有类似哺乳动物一样的寻路能力，能够协助传统的神经科学研究来测试大脑工作原理;此外DeepMind还利用人工智能领域中的元强化学习框架，研究了大脑中多巴胺在人们学习过程中起到的作用。

而AlphaFold作为Alpha家族的新成员，也体现出了DeepMind在人工智能探索上从“脑力运动”向“生命探索”的转变。AlphaFold涉足的蛋白质结构领域，能够通过模拟和模型展示很多关于蛋白质的形状及其运作方式的问题，从而能够使科学家更有效地设计新的、有效的疾病治疗方法，同时也降低了与实验相关的成本。此外，对蛋白质折叠的理解也将进一步帮助进行蛋白质的设计。例如，通过蛋白质设计可以帮助管理塑料和石油等污染物，生物可降解酶的进步，以对环境更友好的方式分解废物。事实上，已经有研究人员开始设计细菌来分泌蛋白质，使废物可以生物降解并且更容易加工。

“破解围棋或电子竞技从来不是我们的目标，我们的最终目标是发展出能完全解决像‘蛋白质折叠’这类问题的算法。”哈萨比斯表示。