產(chǎn)品分類導(dǎo)航
CPHI制藥在線 資訊 Nature子刊:李煜/尹鵬/王晟/孫思琦等開發(fā)RNA語言模型,快速準(zhǔn)確預(yù)測(cè)RNA三維結(jié)構(gòu)

Nature子刊:李煜/尹鵬/王晟/孫思琦等開發(fā)RNA語言模型,快速準(zhǔn)確預(yù)測(cè)RNA三維結(jié)構(gòu)

作者:王聰  來源:生物世界
  2024-12-09
2024年諾貝爾化學(xué)獎(jiǎng)授予了 Demis Hassabis 和 John M. Jumper,以表彰他們?cè)凇暗鞍踪|(zhì)結(jié)構(gòu)預(yù)測(cè)”方面的貢獻(xiàn),他們開發(fā)的AlphaFold系統(tǒng)實(shí)現(xiàn)了對(duì)蛋白質(zhì)三維結(jié)構(gòu)的準(zhǔn)確預(yù)測(cè)。

       2024年諾貝爾化學(xué)獎(jiǎng)授予了 Demis Hassabis 和 John M. Jumper,以表彰他們?cè)?ldquo;蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)”方面的貢獻(xiàn),他們開發(fā)的AlphaFold系統(tǒng)實(shí)現(xiàn)了對(duì)蛋白質(zhì)三維結(jié)構(gòu)的準(zhǔn)確預(yù)測(cè)。

       然而,準(zhǔn)確預(yù)測(cè)另一種生物大分子——RNA的三維結(jié)構(gòu),仍是一個(gè)尚未解決的挑戰(zhàn)。確定RNA的三維結(jié)構(gòu)對(duì)于理解其功能、指導(dǎo)靶向藥物開發(fā)和合成生物學(xué)設(shè)計(jì)至關(guān)重要。但RNA的結(jié)構(gòu)靈活性導(dǎo)致已通過實(shí)驗(yàn)確定的結(jié)構(gòu)數(shù)據(jù)的稀缺,這使得計(jì)算預(yù)測(cè)工作變得復(fù)雜。

       近日,香港中文大學(xué)李煜、哈佛大學(xué)James Collins、尹鵬、智峪生科王晟、復(fù)旦大學(xué)孫思琦等人在 Nature 子刊 Nature Methods 上發(fā)表了題為:Accurate RNA 3D structure prediction using a language model-based deep learning approach 的研究論文。

       該研究使用RNA語言模型,實(shí)現(xiàn)準(zhǔn)確、快速的RNA三維結(jié)構(gòu)的從頭預(yù)測(cè),在建模單鏈RNA方面顯示了很強(qiáng)的準(zhǔn)確性,并在不同RNA家族和類型中表現(xiàn)出良好的泛化能力,同時(shí)還能夠捕捉局部特征(例如螺旋間角和二級(jí)結(jié)構(gòu))。

Accurate RNA 3D structure prediction using a language model-based deep learning approach

       RNA在“中心法則”中發(fā)揮著關(guān)鍵的承上啟下的作用。RNA結(jié)構(gòu)如何影響基因調(diào)控和功能一直是研究的重點(diǎn)。聚焦于RNA靶向的研究表明,它可以作為藥物開發(fā)的重要靶點(diǎn)和有用的合成生物學(xué)設(shè)計(jì)元件。

       超過85%的人類基因組被轉(zhuǎn)錄為RNA,但只有3%的基因組編碼蛋白質(zhì),這凸顯出轉(zhuǎn)錄的RNA中有相當(dāng)一部分功能和結(jié)構(gòu)是未知的。在許多情況下,獲得高分辨率的結(jié)構(gòu)信息可以使我們對(duì)所關(guān)注的RNA分子有具預(yù)測(cè)性的理解。

       RNA分子的構(gòu)象靈活性使其三維(3D)結(jié)構(gòu)的實(shí)驗(yàn)測(cè)定具有挑戰(zhàn)性。截至2023年12月,RNA結(jié)構(gòu)占蛋白質(zhì)數(shù)據(jù)庫(PDB)中約214000個(gè)結(jié)構(gòu)的不到1.0%,而含RNA的復(fù)合物結(jié)構(gòu)僅占2.1%。

       盡管X射線晶體學(xué)、核磁共振波譜學(xué)和冷凍電鏡技術(shù)取得了進(jìn)展,但這些低通量技術(shù)受到專業(yè)要求的限制。利用RNA序列數(shù)據(jù)的計(jì)算方法已成為RNA三維結(jié)構(gòu)預(yù)測(cè)的補(bǔ)充方法。這些方法主要分為兩類:基于模板的建模(例如ModeRNA和RNAbuilder)和從頭預(yù)測(cè)(例如FARFAR2、3dRNA和SimRNA),前者受模板庫的限制,后者預(yù)測(cè)性更高,但由于大規(guī)模抽樣的要求,計(jì)算量更大。

       基于深度學(xué)習(xí)的方法,已被應(yīng)用于預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)、RNA二級(jí)結(jié)構(gòu),以及對(duì)其他方法生成的RNA結(jié)構(gòu)進(jìn)行評(píng)分。由于RNA三維結(jié)構(gòu)數(shù)據(jù)的匱乏,以往的RNA三維結(jié)構(gòu)預(yù)測(cè)方法主要集中在基于模板或基于能量的抽樣技術(shù)上。盡管數(shù)據(jù)匱乏,AlphaFold2在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面的成功推動(dòng)了從頭深度學(xué)習(xí)方法在RNA三維結(jié)構(gòu)預(yù)測(cè)方面的發(fā)展。這些新方法通常從單個(gè)輸入序列開始,然后從它構(gòu)建多序列比對(duì)(MSA),然后用于構(gòu)建三維結(jié)構(gòu)。

       多序列比對(duì)(MSA)已被證明為蛋白質(zhì)建模提供了額外信息,這可能對(duì)RNA也是如此。例如,DeepFoldRNA和trRosettaRNA利用transformer網(wǎng)絡(luò)將構(gòu)建的MSA和預(yù)測(cè)的二級(jí)結(jié)構(gòu)轉(zhuǎn)換為各種一維和二維的距離、方向和扭轉(zhuǎn)角度。然后,這些預(yù)測(cè)的幾何形狀被用作利用能量最小化來預(yù)測(cè)RNA三維結(jié)構(gòu)的約束,并將抽樣和評(píng)分過程整合到其框架中。包括E2Efold-3D和RoseTTAFoldNA在內(nèi)的幾個(gè)模型采用了完全可區(qū)分的端到端管線,利用構(gòu)建的MSA和二級(jí)結(jié)構(gòu)約束直接預(yù)測(cè)全原子3D模型。

       AlphaFold2的繼承者AlphaFold3也能夠直接從輸入序列中預(yù)測(cè)RNA的3D結(jié)構(gòu),而在預(yù)測(cè)過程中仍然依賴于其構(gòu)建的MSA。與其他方法相比,AlphaFold3采用了基于擴(kuò)散(diffusion-based)的過程來預(yù)測(cè)原始原子坐標(biāo),取代了AlphaFold2結(jié)構(gòu)模塊對(duì)氨基酸特定框架和側(cè)鏈扭轉(zhuǎn)角的操作。

       雖然這些基于MSA的方法能夠準(zhǔn)確預(yù)測(cè)RNA的3D結(jié)構(gòu),但它們需要在大型序列數(shù)據(jù)庫中進(jìn)行廣泛的搜索,這可能很耗時(shí)。相比之下,基于單一序列(包括DRFold)的模型不使用MSA,因此不需要在大型序列數(shù)據(jù)庫中進(jìn)行大量搜索,相反,DRFold僅依靠預(yù)測(cè)的二級(jí)結(jié)構(gòu)來預(yù)測(cè)三維結(jié)構(gòu)。這種方法速度更快,但通常與基于MSA的方法相比準(zhǔn)確性較低。下一代深度學(xué)習(xí)方法可能更好地利用基于MSA的方法,從而提高預(yù)測(cè)的速度和準(zhǔn)確性。

       在這項(xiàng)新研究中,研究團(tuán)隊(duì)提出了一種基于語言模型的深度學(xué)習(xí)方法——RhoFold+,能夠從序列信息中準(zhǔn)確且快速從頭預(yù)測(cè)單鏈RNA的三維結(jié)構(gòu)。

       通過整合預(yù)訓(xùn)練的約2370萬個(gè)RNA序列的RNA語言模型,并利用技術(shù)解決數(shù)據(jù)匱乏問題,RhoFold+提供了一個(gè)完全自動(dòng)化的RNA三維結(jié)構(gòu)預(yù)測(cè)端到端管線。

       對(duì)RNA-Puzzles(一個(gè)評(píng)估RNA三維結(jié)構(gòu)預(yù)測(cè)的國(guó)際合作項(xiàng)目)和CASP15(蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽)天然RNA靶點(diǎn)的回顧性評(píng)估表明,RhoFold+優(yōu)于包括人類專家組在內(nèi)的現(xiàn)有方法。通過跨RNA家族和類型評(píng)估以及時(shí)間限制的基準(zhǔn)測(cè)試,進(jìn)一步驗(yàn)證了RhoFold+的性能和普遍適用性。此外,RhoFold+還能預(yù)測(cè)RNA二級(jí)結(jié)構(gòu)和螺旋間角,提供了可驗(yàn)證的特征,拓寬了其在RNA結(jié)構(gòu)和功能研究中的適用性。

RhoFold+的架構(gòu)和用于性能評(píng)估的任務(wù)

RhoFold+的架構(gòu)和用于性能評(píng)估的任務(wù)

       RhoFold+與它的前身RhoFold相比,實(shí)現(xiàn)了完全自動(dòng)化和差異化的改進(jìn),利用MSA和其他特性的改進(jìn)集成來提高性能,其主要重點(diǎn)是確定單鏈RNA的結(jié)構(gòu),因?yàn)閱捂淩NA與其他分子的相互作用有限。解決這一挑戰(zhàn)可以幫助我們更好地理解RNA生物學(xué),并為解決更復(fù)雜的結(jié)構(gòu)問題提供起點(diǎn)。

       論文鏈接:https://www.nature.com/articles/s41592-024-02487-0

相關(guān)文章

合作咨詢

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2024 上海博華國(guó)際展覽有限公司版權(quán)所有(保留一切權(quán)利) 滬ICP備05034851號(hào)-57