SARS-CoV-2引發(fā)了COVID-19大流行,對全球健康造成持續(xù)威脅。盡管一直在努力開發(fā)疫苗、抗病毒藥物和抗體療法,但SARS-CoV-2蛋白,尤其是刺突蛋白(S蛋白)的快速突變,是目前COVID-19疫苗和藥物干預(yù)措施面臨的一個重大障礙。
隨著疫情的進(jìn)展,SARS-CoV-2蛋白出現(xiàn)了多種突變,其中一些突變增加了病毒與ACE2的結(jié)合親和力,從而逃逸免疫。病毒蛋白突變導(dǎo)致病毒進(jìn)化,從而在一定程度上推動了連續(xù)幾波大流行的傳播。奧密克戎(Omicron)是一個高度關(guān)注的分支,于2021年11月出現(xiàn),其BA.1亞型迅速取代了Delta流行株。隨后,包括BA.2、BA.4、BA.5、BQ.1、XBB、CH1.1、EG.5、JN.1、KP.2、KP.3、XDV.1和LN.1在內(nèi)的多個奧密克戎亞型陸續(xù)出現(xiàn),發(fā)展出更強(qiáng)的宿主免疫逃逸特性。
鑒于SARS-CoV-2正在發(fā)生突變,并且存在數(shù)種值得關(guān)注的突變株,因此預(yù)測有助于免疫逃逸和病毒感染性的關(guān)鍵突變,對于疾病預(yù)防至關(guān)重要。
2024年12月23日,清華大學(xué)程功團(tuán)隊在 Signal Transduction and Targeted Therapy 期刊發(fā)表了題為:A predictive language model for SARS-CoV-2 evolution 的研究論文。
該研究開發(fā)了一種語言模型——突變進(jìn)化預(yù)測語義模型(semantic model for variant evolution prediction, SVEP),利用規(guī)律性和隨機(jī)性來預(yù)測可能流行的候選SARS-CoV-2突變株和重要突變。
由于人工智能(AI)技術(shù)的進(jìn)步,生物醫(yī)學(xué)正在經(jīng)歷一場革命性的變化。已有研究將病毒序列表示為字母字符串,并使用自然語言處理(NLP)評估了現(xiàn)有序列的語法和語義適合性。
由于突變病毒必須保持其傳染性和進(jìn)化適應(yīng)性才能實現(xiàn)免疫逃逸,因此它必須遵守生物規(guī)則的“語法”。以類似的方式,可以將蛋白質(zhì)基序和結(jié)構(gòu)域類比為人類語言(例如單詞、短語和句子),用于建模分析和預(yù)測。與所有其他物種一樣,雖然不可避免地會發(fā)生突變,但SARS-CoV-2等病毒的蛋白質(zhì)仍然有其較保守的位點和較不保守的位點。
通過分析突變發(fā)生的氨基酸特征,一些研究預(yù)測了保留傳染性和適應(yīng)性的突變,有可能揭示更常見的突變。例如,所有奧密克戎亞亞型(包括最近的JN.1和EG.5)均具有K417N替換,這有助于病毒逃逸體液免疫,提示了這一突變可能在未來的變異體中持續(xù)存在。然而,突變也會以隨機(jī)模式發(fā)生,導(dǎo)致在短時間內(nèi)發(fā)生特定突變。例如,在BA.1、BA.2、BA.4和BA.5奧密克戎亞型中很少發(fā)現(xiàn)F486V、K444T和F456L突變,但在隨后流行的亞型(例如BQ.1和BQ.1.1)中迅速出現(xiàn)。
鑒于目前的研究在僅基于現(xiàn)有病毒序列預(yù)測突變方面存在局限性,該研究研究設(shè)計了一種精細(xì)的語言模型,命名為突變進(jìn)化預(yù)測語義模型(semantic model for variant evolution prediction, SVEP),該模型結(jié)合了組合突變的保守規(guī)律性和非保守隨機(jī)性,用于預(yù)測即將出現(xiàn)的SARS-CoV-2突變的序列。SVEP模型使我們能夠預(yù)測即將出現(xiàn)的SARS-CoV-2突變株的序列,而不需要系統(tǒng)發(fā)育樹、深度突變掃描(DMS)或三維蛋白結(jié)構(gòu)信息。然后,研究團(tuán)隊使用包含SARS-CoV-2的刺突蛋白(S蛋白)的HIV-1假病毒檢測法驗證了該模型的預(yù)測能力。
具體來說,該研究開發(fā)的SVEP模型,利用規(guī)律性和隨機(jī)性來預(yù)測可能占主導(dǎo)地位的SARS-CoV-2突變株和突變,構(gòu)建了可用的S1序列的“語法框架”,以實現(xiàn)維度減少和語義表示,從而捕捉模型的潛在規(guī)律性。將突變譜(即突變頻率)引入模型中,以引入隨機(jī)性。
利用該模型,研究團(tuán)隊通過濕實驗成功地識別并驗證了幾種顯著增強(qiáng)病毒感染性和免疫逃逸的突變株。通過輸入三個不同時間點的序列數(shù)據(jù),該模型成功地在XBB.1.16、EG.5、JN.1和BA.2.86等毒株出現(xiàn)之前檢測到了其循環(huán)株或關(guān)鍵突變。此外,該研究還預(yù)測了可能導(dǎo)致未來流行的先前未知的突變株。
有了數(shù)據(jù)驗證和實驗證據(jù)的支持,這項研究代表了一種快速響應(yīng)、簡潔且具有潛力的語言模型,理論上還可以應(yīng)用于其他病毒病原體,預(yù)測病毒的進(jìn)化并檢測關(guān)鍵的熱點突變位點,從而為可能出現(xiàn)的新興突變株發(fā)出預(yù)警。
消除或緩解COVID-19和其他病毒大流行持續(xù)爆發(fā)的兩大障礙是病原體不斷突變的性質(zhì)和疫苗開發(fā)的耗時過長,后者導(dǎo)致更新疫苗無法趕上病毒突變速率。
因此,預(yù)測可能流行的突變株對于疫苗與病毒突變保持同步至關(guān)重要,這與“紅皇后假說”(Red Queen Hypothesis)類似,該假說認(rèn)為,在環(huán)境條件穩(wěn)定時,一個物種的任何進(jìn)化改進(jìn)都可能構(gòu)成對其他物種的競爭壓力,即使物理環(huán)境不變,種間關(guān)系也可能推動生物進(jìn)化。
該研究開發(fā)的SVEP模型,顯著提高了數(shù)據(jù)處理效率,減少了計算資源的消耗,使模型能夠更有效地模擬組合突變。因此,該模型在及時預(yù)測新出現(xiàn)的病毒突變株方面具有獨特優(yōu)勢,有助于疫苗開發(fā)的快速反應(yīng)。此外,該研究結(jié)果提供了對未來SARS-CoV-2突變株的潛在見解,從而顯著促進(jìn)了COVID-19干預(yù)措施的開發(fā),并可能擴(kuò)展到其他潛在的大流行。
清華大學(xué)基礎(chǔ)醫(yī)學(xué)院程功教授、軍事醫(yī)學(xué)研究院魏從文研究員、清華大學(xué)博士后郭璇為共同通訊作者,清華大學(xué)博士生麻恩浩與郭璇博士為共同第一作者
論文鏈接:
https://www.nature.com/articles/s41392-024-02066-x
合作咨詢
肖女士 021-33392297 Kelly.Xiao@imsinoexpo.com