2022年4月17日,“科普中國(guó)-我是科學(xué)家”第37期“健康的防線”演講現(xiàn)場(chǎng),北京大學(xué)BIOPIC訪問(wèn)教授、北京分子之心科技有限公司首席科學(xué)家許錦波帶來(lái)演講《AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),但這只是一個(gè)開(kāi)始》。
以下為許錦波演講實(shí)錄:
2022.4.17 北京
大家下午好,歡迎大家來(lái)聽(tīng)我的演講。我叫許錦波,我是個(gè)計(jì)算生物學(xué)家。
在大家的印象中,可能一個(gè)生物學(xué)家的實(shí)驗(yàn)室是這樣的——
Pixabay
但我的辦公室其實(shí)更像是這樣——
作為計(jì)算生物學(xué)家,我主要工作是用計(jì)算技術(shù)去研究生物學(xué)問(wèn)題,所以計(jì)算機(jī)是我最常用的工具。
我本科和碩士學(xué)的是計(jì)算機(jī),研究計(jì)算機(jī)算法與計(jì)算機(jī)網(wǎng)絡(luò),以及分布式系統(tǒng)以及計(jì)算機(jī)安全,其實(shí)跟生物沒(méi)有什么關(guān)系。
那為什么我要從一個(gè)非常熱門的領(lǐng)域跳出來(lái),去做蛋白質(zhì)結(jié)構(gòu)研究呢?
大概是讀博士一年半的時(shí)候,一個(gè)偶然的機(jī)會(huì)我接觸到生物學(xué),接觸到蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題。我當(dāng)時(shí)的想法很單純,覺(jué)得這個(gè)問(wèn)題很有趣,也非常重要,并且非常難,所以就想去研究它。當(dāng)我們選擇研究課題的時(shí)候,通常要選擇一些比較重要和困難的問(wèn)題,因?yàn)槿绻@個(gè)問(wèn)題不重要的話,就白花時(shí)間去研究了,沒(méi)有人在乎;如果這個(gè)問(wèn)題不那么難,可能幾年之內(nèi)就被別人做出來(lái)了,其實(shí)也沒(méi)有多大意義。
演講嘉賓許錦波:《AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),但這只是一個(gè)開(kāi)始》| 拍攝:Vphoto
于是,我就從一個(gè)傳統(tǒng)的計(jì)算機(jī)研究者切換到一個(gè)計(jì)算生物學(xué)研究者,想在讀博士期間花幾年時(shí)間去研究這個(gè)問(wèn)題。當(dāng)時(shí)根本沒(méi)有想過(guò)自己以前根本沒(méi)有學(xué)過(guò)生物學(xué),心想如果一點(diǎn)結(jié)果都做不出來(lái)也沒(méi)關(guān)系,到時(shí)候大不了去硅谷寫代碼,當(dāng)碼農(nóng)。
那時(shí)候,科學(xué)家已經(jīng)研究蛋白質(zhì)結(jié)構(gòu)這個(gè)問(wèn)題大概四十年了,它真的是個(gè)非常難的問(wèn)題。剛開(kāi)始研究的時(shí)候,我也碰到很多困難。比如,剛才也說(shuō)了,我本身沒(méi)有學(xué)過(guò)生物學(xué),所以前半年我讀那些專業(yè)論文,很多專業(yè)名詞都不知道是什么意思,也沒(méi)有人去問(wèn),因?yàn)槲业牟┦繉?dǎo)師當(dāng)時(shí)在加州學(xué)術(shù)休假,基本上兩個(gè)月才能見(jiàn)到他一次;而且那時(shí)候也沒(méi)有現(xiàn)在這么方便的網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)會(huì)議,所以剛開(kāi)始的時(shí)候非常困難。
我們知道,細(xì)胞里有三種大分子:DNA、RNA和蛋白質(zhì)。DNA和RNA記錄了我們的遺傳信息,但真正在細(xì)胞里面執(zhí)行功能的是蛋白質(zhì)。蛋白質(zhì)怎么去執(zhí)行功能?它在細(xì)胞里面折疊成固定的三維構(gòu)型,這個(gè)三維結(jié)構(gòu)決定了它的功能,這也正是為什么我們想研究蛋白質(zhì)的三維結(jié)構(gòu)。
這里展示了蛋白質(zhì)結(jié)構(gòu)與功能的三個(gè)例子。左邊這幅圖顯示了新冠抗體和病毒刺突蛋白結(jié)合的樣子,抗體通過(guò)和刺突蛋白結(jié)合,就可以阻擋新冠病毒進(jìn)入人體細(xì)胞。中間這幅圖片是一個(gè)血紅蛋白,它的主要功能是幫助我們把氧氣運(yùn)輸?shù)饺梭w各個(gè)地方。怎么運(yùn)輸?你看到中間有些小球,這些小球表示的是鐵原子。血紅蛋白把鐵原子包裹起來(lái),鐵原子跟氧氣結(jié)合,通過(guò)這種方式把氧氣運(yùn)輸?shù)礁鱾€(gè)細(xì)胞里面去。最右邊的蛋白(朊蛋白)跟瘋牛病有關(guān)系,這里顯示了朊蛋白兩種不同構(gòu)型,左邊的構(gòu)型是正常的折疊狀態(tài),右邊的是不正常的折疊狀態(tài)。如果朊蛋白的折疊是右邊這個(gè)形狀的話,就會(huì)引起瘋牛病。
所以,蛋白質(zhì)結(jié)構(gòu)是個(gè)非常重要的問(wèn)題。
蛋白質(zhì)由很多氨基酸通過(guò)化學(xué)鍵串在一起。這里我用一些小球去表示這些氨基酸,每種顏色的小球表示一種氨基酸。從數(shù)學(xué)角度,你也可以用一個(gè)字符串去表示一個(gè)蛋白質(zhì)的氨基酸序列。每個(gè)氨基酸都是由幾十個(gè)原子形成的,在這頁(yè)幻燈片的下半部分,我畫了一些原子結(jié)構(gòu),大家可以對(duì)蛋白質(zhì)的分子式有一個(gè)直觀的認(rèn)識(shí)?,F(xiàn)在我們只要知道氨基酸序列,就能知道蛋白質(zhì)的分子式。
原子在細(xì)胞里面有相互作用力,最后會(huì)形成一個(gè)比較穩(wěn)定的狀態(tài)去執(zhí)行某種特殊的功能。所以,雖然我們對(duì)蛋白質(zhì)的分子式已經(jīng)很了解,但知道這些組成蛋白質(zhì)的原子最后會(huì)形成怎么樣的構(gòu)型仍是個(gè)很困難的問(wèn)題。
在以前,我們沒(méi)有特別好的方法去確定這些原子在三維空間中到底會(huì)處于什么樣的位置。
這張幻燈片的左邊展示了四個(gè)不同蛋白的結(jié)構(gòu),很漂亮,我們用軟件把它畫成了卡通形式,簡(jiǎn)化了結(jié)構(gòu)的復(fù)雜度。但在右邊,我們把蛋白質(zhì)復(fù)合物的原子都畫出來(lái)了,就變得非常復(fù)雜。我們可以用不同軟件、不同表示形式把蛋白質(zhì)的三維結(jié)構(gòu)給畫出來(lái),去觀察蛋白質(zhì)到底長(zhǎng)什么樣。根據(jù)蛋白質(zhì)的結(jié)構(gòu),我們可以在原子層面去分析、去預(yù)測(cè)這個(gè)蛋白質(zhì)它到底會(huì)執(zhí)行什么樣的功能。
怎樣才能得到蛋白質(zhì)結(jié)構(gòu)?在過(guò)去的幾十年中,科學(xué)家們開(kāi)發(fā)了不同的實(shí)驗(yàn)技術(shù)去觀察和測(cè)定蛋白質(zhì)在細(xì)胞里的三維構(gòu)型,其中最精確的一種叫做晶體衍射技術(shù)。后續(xù)科學(xué)家們也開(kāi)發(fā)了另外兩種技術(shù),一種是核磁共振,另一種是現(xiàn)在非常流行的冷凍電鏡技術(shù)。這三種技術(shù)都可以以不同的方式去觀察和測(cè)定蛋白質(zhì)的三維構(gòu)型,但也都存在問(wèn)題。
首先,這些方法需要非常長(zhǎng)的時(shí)間去測(cè)定哪怕一個(gè)蛋白質(zhì)的三維構(gòu)型。另外,它們的費(fèi)用非常高。更致命的是,并不是所有蛋白質(zhì)的三維構(gòu)型都可以用這些實(shí)驗(yàn)技術(shù)給測(cè)出來(lái)。所以,我們需要另外想出方法去獲得定蛋白質(zhì)的三維構(gòu)型,這也是為什么我們想做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)——我們想通過(guò)計(jì)算技術(shù)去把蛋白質(zhì)的三維結(jié)構(gòu)給算出來(lái),而不是用實(shí)驗(yàn)儀器測(cè)出來(lái)。
計(jì)算機(jī)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)這個(gè)問(wèn)題本身的定義很簡(jiǎn)單:假設(shè)我們有了一個(gè)蛋白質(zhì)的氨基酸序列,能不能把它輸入到計(jì)算機(jī)里面去,讓計(jì)算機(jī)輸出每個(gè)原子的三維坐標(biāo)?然而,實(shí)際操作中是非常困難的,到目前為止已經(jīng)研究了將近六十年了。
2016年前,當(dāng)我們談?wù)摰鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè),通常意味著需要非常多的計(jì)算資源。那時(shí)候的科學(xué)家們通常用超級(jí)計(jì)算機(jī)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),只有少數(shù)幾個(gè)研究組能夠真正做到。即使這樣,對(duì)于很小的蛋白質(zhì),預(yù)測(cè)成功率也非常低。
我本人從2001年開(kāi)始研究這個(gè)問(wèn)題,我的研究歷程大概可以分為三個(gè)階段——
2001到2006年,我主要使用能量?jī)?yōu)化的方法去做蛋白質(zhì)預(yù)測(cè)。大家普遍認(rèn)為蛋白質(zhì)會(huì)折疊到最小能量狀態(tài),如果我們能把某個(gè)蛋白質(zhì)的能量最優(yōu)化,理論上就可以算出它的結(jié)構(gòu)。這種方法會(huì)教計(jì)算機(jī)一步步怎么去優(yōu)化能量,從而達(dá)到預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的目的。當(dāng)時(shí)雖然取得了一定成果,但結(jié)果還是無(wú)法令人滿意,預(yù)測(cè)出來(lái)的結(jié)構(gòu)離實(shí)驗(yàn)技術(shù)測(cè)出來(lái)的非常遠(yuǎn)。于是我意識(shí)到能量?jī)?yōu)化方法是走不通的。
2006到2014年期間,我開(kāi)始使用機(jī)器學(xué)習(xí)去研究這個(gè)問(wèn)題。傳統(tǒng)的機(jī)器學(xué)習(xí)方法是直接把蛋白質(zhì)的氨基酸序列映射到一個(gè)三維構(gòu)型上去,比基于物理或是統(tǒng)計(jì)的方法做得好一點(diǎn)點(diǎn),但也還有很多問(wèn)題。當(dāng)時(shí)大家認(rèn)為這個(gè)問(wèn)題沒(méi)辦法做出來(lái),期間很多人都離開(kāi)這個(gè)領(lǐng)域;另外,由于這個(gè)問(wèn)題很長(zhǎng)時(shí)間都沒(méi)有得到什么本質(zhì)上的改變,所以申請(qǐng)研究經(jīng)費(fèi)也非常困難。
2012年,深度學(xué)習(xí)開(kāi)始在圖像識(shí)別領(lǐng)域展示出威力,就有人很自然地想到,我們能不能用深度學(xué)習(xí)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。然而當(dāng)時(shí)他們得到的結(jié)果跟傳統(tǒng)的機(jī)器學(xué)習(xí)方法沒(méi)有任何區(qū)別,也就是說(shuō)在這個(gè)領(lǐng)域,最初得到的是個(gè)否定的結(jié)果。
2014年,我們?cè)O(shè)計(jì)了一種新的深度學(xué)習(xí)算法,開(kāi)始使用深度學(xué)習(xí)去研究蛋白質(zhì)結(jié)構(gòu)。我們先在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)上測(cè)試,發(fā)現(xiàn)深度學(xué)習(xí)對(duì)這個(gè)簡(jiǎn)單問(wèn)題有效,就激發(fā)了我們?nèi)プ鲞M(jìn)一步的研究。
2015年和2016年,我們開(kāi)發(fā)了一種更好的深度學(xué)習(xí)算法,它可以直接用來(lái)預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。
那什么是深度學(xué)習(xí)?它其實(shí)是模擬大腦神經(jīng)元的工作方式來(lái)進(jìn)行預(yù)測(cè),好處在于不需要告訴計(jì)算機(jī)怎么一步步去做,只用給計(jì)算機(jī)輸入和輸出。也就是說(shuō),我們只要給計(jì)算機(jī)氨基酸序列,告訴計(jì)算機(jī)它們對(duì)應(yīng)的一些真實(shí)結(jié)構(gòu)或者實(shí)驗(yàn)結(jié)構(gòu),就可以教計(jì)算機(jī)自主學(xué)會(huì)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)。
我們當(dāng)時(shí)的方法叫“深度卷積殘差神經(jīng)網(wǎng)絡(luò)”。預(yù)測(cè)思路是,首先預(yù)測(cè)蛋白質(zhì)里面兩個(gè)氨基酸在空間中是靠得比較近還是離得比較遠(yuǎn),再把它們的三維坐標(biāo)重構(gòu)出來(lái)。2016年暑假,我們發(fā)現(xiàn)這個(gè)方法可以大幅度地提高蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)精度,在那年秋天寫成一篇論文貼到網(wǎng)上去,引起了領(lǐng)域內(nèi)很多人的關(guān)注。
這篇論文在2017年1月份正式發(fā)表,在2018年上半年拿到了國(guó)際計(jì)算生物學(xué)的旗艦期刊PLoS Computational Biology的創(chuàng)新突破獎(jiǎng)。
這是我們當(dāng)時(shí)預(yù)測(cè)的一個(gè)有兩百多個(gè)氨基酸的膜蛋白的結(jié)構(gòu),誤差大概是2.29個(gè)埃,已經(jīng)非常接近用實(shí)驗(yàn)技術(shù)解出來(lái)的結(jié)構(gòu)的分辨率了。
2016年暑假,我們參加了全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽(CASP)。雖然這時(shí)候我們還沒(méi)有把方法完全實(shí)現(xiàn)好,但在測(cè)試中我們的算法已經(jīng)是排名最好的,遠(yuǎn)遠(yuǎn)好于傳統(tǒng)的統(tǒng)計(jì)方法。
2017年和2018年,我們進(jìn)一步推廣了這個(gè)算法,把之前預(yù)測(cè)“氨基酸靠得比較近還是離得比較遠(yuǎn)”推廣到預(yù)測(cè)兩個(gè)原子在空間中的距離。比如說(shuō),我們可以預(yù)測(cè)蛋白質(zhì)里面兩個(gè)原子在空間中的距離是5埃,還是6埃, 7埃。根據(jù)預(yù)測(cè)出的距離,我們可以把三維坐標(biāo)重構(gòu)出來(lái)。后來(lái)我們把這個(gè)想法寫成一篇論文,發(fā)表在2019年《美國(guó)國(guó)家科學(xué)院院刊》上面。
我們2016年和2018年的算法都需要利用蛋白質(zhì)的共進(jìn)化信息。什么叫共進(jìn)化信息?假如兩個(gè)氨基酸在空間中靠得比較近,那么在進(jìn)化過(guò)程中,它們就可能會(huì)同時(shí)進(jìn)化,這種現(xiàn)象就叫共進(jìn)化。但現(xiàn)實(shí)中,有些情況下蛋白質(zhì)是沒(méi)有共進(jìn)化信息的,一種是人工設(shè)計(jì)的蛋白,它不是自然界存在的,也就沒(méi)有共進(jìn)化信息;另外一種情況就是蛋白質(zhì)復(fù)合物,如果我們想預(yù)測(cè)兩個(gè)蛋白質(zhì)在空間中怎么結(jié)合,很多情況下是得不到兩個(gè)蛋白質(zhì)之間的共進(jìn)化信息。所以我們需要能夠在不使用共進(jìn)化信息的情況下去預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)。
所以,2019年和2020年,我又進(jìn)一步去發(fā)展了我們這個(gè)方法,實(shí)現(xiàn)了不使用共進(jìn)化信息去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),預(yù)測(cè)結(jié)果跟實(shí)驗(yàn)測(cè)出來(lái)的結(jié)構(gòu)非常吻合。
2020年,DeepMind繼承了我們的方法,開(kāi)發(fā)了新一代的深度學(xué)習(xí)方法。那一年有很多人知道人工智能已經(jīng)顛覆了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),這種顛覆帶來(lái)的改變非常大,特別是改變了分子生物學(xué)家做研究的范式——以前分子生物學(xué)家研究一個(gè)蛋白質(zhì),都是基于氨基酸序列去研究蛋白質(zhì)的功能,但現(xiàn)在我們有了精確的結(jié)構(gòu)預(yù)測(cè),分子學(xué)家可以直接基于預(yù)測(cè)出的結(jié)構(gòu)去研究蛋白質(zhì)的功能。
在2020年,人工智能預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)入選了《科學(xué)》雜志評(píng)出來(lái)的“十大科學(xué)突破”;到2021年又被《科學(xué)》雜志評(píng)為“十大科學(xué)突破之首”;在今年被《麻省理工科技評(píng)論》評(píng)為“十大突破性技術(shù)”。
自從人工智能在預(yù)測(cè)蛋白質(zhì)獲得突破之后,國(guó)內(nèi)也有很多組去研究這個(gè)問(wèn)題,但很多是在重復(fù)實(shí)現(xiàn)已有的人工智能算法——當(dāng)然這些工作需要我們?nèi)プ?,但這并不是最好的途徑,因?yàn)檫@個(gè)領(lǐng)域內(nèi)還有非常多的問(wèn)題沒(méi)有解決。
比如說(shuō),我們能不能預(yù)測(cè)蛋白質(zhì)跟其他分子的相互作用,這跟蛋白質(zhì)的功能預(yù)測(cè)、跟制藥息息相關(guān),因?yàn)榈鞍踪|(zhì)在細(xì)胞里面執(zhí)行功能是通過(guò)跟其他分子結(jié)合在一起去實(shí)現(xiàn)的,所以這是一個(gè)非常重要的問(wèn)題。另外,我想這幾年大家對(duì)抗體已經(jīng)比較熟悉了。當(dāng)設(shè)計(jì)出一個(gè)抗體之后,我們可以預(yù)測(cè)這個(gè)抗體跟抗原到底怎么結(jié)合,通過(guò)這種方式我們可以去估計(jì)這個(gè)抗體到底有多好。最后,我們也可以用人工智能去設(shè)計(jì)自然界不存在的蛋白,這些蛋白可以用來(lái)制藥,也可以用在工業(yè)生產(chǎn)上,比如我們可以設(shè)計(jì)一些新的酶來(lái)提高工業(yè)催化的效率。
謝謝大家。
演講嘉賓許錦波:《AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),但這只是一個(gè)開(kāi)始》| 拍攝:Vphoto