谷歌DeepMind團隊的阿爾法折疊2 (AlphaFold2)使用最新的人工智能算法對蛋白質(zhì)結構實(shí)現了接近實(shí)驗精度的精準預測。這一成果被美國《科學(xué)》雜志評為2020年十大科學(xué)突破之一。復旦大學(xué)復雜體系多尺度研究院教授馬劍鵬團隊與上海人工智能實(shí)驗室合作,近日以《OPUS-Rota4: 一個(gè)基于梯度和深度學(xué)習的蛋白質(zhì)側鏈建??蚣堋罚?ldquo;OPUS-Rota4: a gradient-based protein side-chain modeling framework assisted by deep learning-based predictors”)為題在《生物信息學(xué)簡(jiǎn)報》(Briefings in Bioinformatics)上發(fā)表論文,展示了蛋白質(zhì)側鏈預測算法(OPUS-Rota4 算法),其精度顯著(zhù)超越了谷歌團隊的阿爾法折疊算法。 在目前阿爾法折疊算法開(kāi)源的情況下,復旦團隊的算法可以為任何蛋白質(zhì)結構預測工作提供比阿爾法折疊更準確的側鏈模型,從而為蛋白質(zhì)結構研究,尤其是基于蛋白結構的新藥設計工作提供了利器。
用人工智能系統預測蛋白質(zhì)結構,有什么價(jià)值?馬劍鵬介紹,蛋白質(zhì)由一系列氨基酸折疊而成,具有穩定的三維結構。如果掌握了各種蛋白質(zhì)的精確三維結構,科學(xué)家在生命科學(xué)研究中就好比有了導航地圖。然而,用冷凍電鏡等實(shí)驗設備測定蛋白質(zhì)結構的難度很大,而且經(jīng)濟成本、時(shí)間成本很高。如果人工智能系統可以快速、精準地預測蛋白質(zhì)結構,新藥研發(fā)等工作的效率將大幅提高,成本也會(huì )隨之降低。
蛋白質(zhì)三維結構由主鏈和側鏈共同搭建而成,人工智能系統預測蛋白質(zhì)結構的通常步驟,是先為蛋白質(zhì)主鏈建模,再根據主鏈的構象為側鏈建模。自然界中的蛋白質(zhì)含有20種氨基酸,它們的主鏈幾乎完全相同,而側鏈差異很大。由于藥物分子與人體蛋白質(zhì)結合的位點(diǎn)絕大多數在氨基酸側鏈上,人工智能系統對側鏈的精準預測對新藥研發(fā)具有重要價(jià)值。這種精準預測能力還可用于解釋基因點(diǎn)突變、基因小片段突變的機制,為遺傳性疾病研究和治療提供寶貴思路。
精準的蛋白質(zhì)側鏈建模對蛋白質(zhì)折疊和蛋白質(zhì)設計至關(guān)重要。近年來(lái)的研究中,研究人員開(kāi)發(fā)的側鏈建模算法大多基于抽樣,如SCWRL4、OPUS-Rota3等。其從離散的側鏈二面角轉子庫中進(jìn)行抽樣,隨后根據一系列能量函數進(jìn)行優(yōu)化,找到能夠讓能量最低的二面角轉子即為最終結果?;诔闃拥膫孺溄K惴▋?yōu)點(diǎn)是速度較快,但由于使用離散的轉子并受限于能量函數的準確性,其整體側鏈預測精度仍然有待提高。
OPUS-Rota4引入深度學(xué)習算法,使得蛋白質(zhì)側鏈建模精度得到了大幅提升。研究人員首先使用OPUS-RotaNN2結合多種不同的提取特征得到初始的側鏈二面角預測結果,之后使用OPUS-RotaCM得到側鏈原子接觸圖,最后使用其自主研發(fā)的建??蚣躉PUS-Fold2根據接觸圖對初始側鏈二面角預測結果進(jìn)行優(yōu)化并輸出最終結果。
圖為OPUS-Rota4整體框架
研究人員在三個(gè)天然構象測試集中進(jìn)行了測試,其中CAEMO(60)包含60個(gè)測試蛋白,CASPFM(56)包含56個(gè)測試蛋白,CASP14(15)包含15個(gè)測試蛋白。其結果顯示,在三個(gè)測試集中,OPUS-Rota4的結果均優(yōu)于其它側鏈建模算法。
圖為RMSD結果。數值越低說(shuō)明越接近天然構象。All代表全部殘基,Core代表中心殘基。全部殘基包含中心殘基和表面殘基。中心殘基位于蛋白質(zhì)內部,對其生物學(xué)功能更為重要。
除了三個(gè)天然構象測試集外,研究人員還使用AlphaFold2得到了CASP14(15)中15個(gè)蛋白的預測結構,并根據預測主鏈結構對其側鏈用不同方法進(jìn)行重新建模。其結果顯示,OPUS-Rota4的結果顯著(zhù)優(yōu)于其它側鏈建模方法,而且比AlphaFold2預測的側鏈更接近天然構象。
研究人員展示了幾個(gè)預測較為成功的結構。結果表明,OPUS-Rota4的側鏈預測結果和天然構象基本接近,尤其是對于那些位于蛋白質(zhì)內部的中心殘基。
如圖所示,藍色為天然構象,紅色為預測結果。
研究人員還對幾個(gè)相對預測較差的結構進(jìn)行了分析。研究人員認為,其預測較差的主要原因可能是這些結構中都存在較長(cháng)的無(wú)序loop區域,該區域的氨基酸側鏈結構自由度較高。
研究人員表示,將會(huì )對蛋白質(zhì)側鏈建模進(jìn)行進(jìn)一步研究,以期繼續提升準確率,并將對側鏈建模在實(shí)際問(wèn)題中的應用進(jìn)行探索。側鏈預測的技術(shù)難度很大。馬劍鵬打比方說(shuō):“基于高精度的自然主鏈構象來(lái)建側鏈結構,就像在靜止的船甲板上做金雞獨立,站穩很不容易。如果是基于計算機預測的非自然主鏈構象來(lái)建側鏈結構,就像在搖晃的船甲板上做金雞獨立,難度更大。”
復旦大學(xué)復雜體系多尺度研究院青年副研究員徐罡為論文第一作者,復旦大學(xué)復雜體系多尺度研究院院長(cháng)馬劍鵬為通訊作者。