冷凍電鏡(cryo-EM)技術(shù)帶來(lái)了分辨率革命,讓我們能夠以原子級(jí)的高分辨率觀察并描繪蛋白質(zhì)結(jié)構(gòu)。基于人工智能(AI)的AlphaFold等工具實(shí)現(xiàn)了對(duì)蛋白質(zhì)結(jié)構(gòu)的快速且精準(zhǔn)的預(yù)測(cè),如今,AlphaFold已經(jīng)預(yù)測(cè)了地球上幾乎所有已知的蛋白質(zhì)的結(jié)構(gòu)。
從歷史上來(lái)看,結(jié)構(gòu)生物學(xué)(Structural Biology)一直專注于研究已知物質(zhì)。而現(xiàn)在,結(jié)構(gòu)生物學(xué)正經(jīng)歷著一種范式轉(zhuǎn)變——從靶向結(jié)構(gòu)確定到結(jié)構(gòu)引導(dǎo)的發(fā)現(xiàn)先前未被表征的生物實(shí)體。而冷凍電鏡的高分辨率能力以及人工智能的結(jié)構(gòu)預(yù)測(cè)能力,為探索完全未知的生物實(shí)體提供了前所未有的機(jī)會(huì)。
最近,深圳醫(yī)學(xué)科學(xué)院顏寧教授團(tuán)隊(duì)接連發(fā)表了幾篇論文,提出了一個(gè)名為CryoSeek(酷尋)的新策略,將冷凍電鏡作為一種觀察工具,結(jié)合AI輔助的自動(dòng)建模和生物信息學(xué)分析,發(fā)現(xiàn)自然界中完全未知的新型生物實(shí)體。
北京時(shí)間2025年1月1日,顏寧、李張強(qiáng)、閆創(chuàng)業(yè)等人在《美國(guó)國(guó)家科學(xué)院院刊》(PNAS)發(fā)表了題為:CryoSeek II: Cryo-EM analysis of glycofibrils from freshwater reveals well-structured glycans coating linear tetrapeptide repeats 的研究論文。
盡管最近在蛋白質(zhì)的結(jié)構(gòu)測(cè)定和預(yù)測(cè)方面取得了突破性進(jìn)展,但對(duì)碳水化合物結(jié)構(gòu)的研究仍然是一個(gè)挑戰(zhàn)。
在這項(xiàng)最新研究中,研究團(tuán)隊(duì)報(bào)告了在清華荷塘淡水中發(fā)現(xiàn)的糖蛋白纖維的冷凍電鏡(cryo-EM)分析。研究團(tuán)隊(duì)將其命名為T(mén)LP-4,它是由四肽重復(fù)序列的線性多肽鏈組成,外覆>4納米厚的聚糖。在每個(gè)重復(fù)中,兩個(gè)聚糖O-連接到一個(gè)3,4-二羥脯氨酸(diHyp),另一個(gè)聚糖連接到相鄰的絲氨酸或蘇氨酸。纖維結(jié)構(gòu)完全通過(guò)聚糖填充來(lái)維持。
生物信息學(xué)分析證實(shí),TLP-4重復(fù)序列在物種間的保守性,提示了自然界還存在大量有待發(fā)現(xiàn)的糖蛋白纖維。
此外,對(duì)TLP-4和其他糖蛋白纖維的結(jié)構(gòu)研究可以為訓(xùn)練基于人工智能(AI)的工具建立有價(jià)值的數(shù)據(jù)集,用于精確聚糖結(jié)構(gòu)預(yù)測(cè)、模型建立和結(jié)合劑設(shè)計(jì)。
總的來(lái)說(shuō),這一發(fā)現(xiàn)發(fā)現(xiàn)不僅對(duì)聚糖在生物組裝中的結(jié)構(gòu)作用提供了有價(jià)值的見(jiàn)解,而且展示了研究團(tuán)隊(duì)最近制定的CryoSeek(酷尋)研究策略在尋找生物實(shí)體以及為碳水化合物的結(jié)構(gòu)研究建立原型方面的潛力。
顏寧教授表示,這篇論文的上線完美標(biāo)志著2025年是實(shí)驗(yàn)室新方向的正式開(kāi)始——利用CryoSeek(酷尋)做起點(diǎn),研究糖蛋白和糖生物學(xué)。此外,實(shí)驗(yàn)室最近以及將來(lái)會(huì)多投預(yù)印本bioRxiv,因?yàn)槿碌念I(lǐng)域太需要合作,所以一有新發(fā)現(xiàn)就先放出來(lái),希望從糖質(zhì)鑒定、化學(xué)合成、生物學(xué)合成通路、糖蛋白纖維功能等多個(gè)方面建立廣泛的合作。
此前的兩項(xiàng)的關(guān)于CryoSeek(酷尋)的研究論文
2024年10月9日,顏寧、李張強(qiáng)等人在《美國(guó)國(guó)家科學(xué)院院刊》(PNAS)發(fā)表了題為:CryoSeek: A strategy for bioentity discovery using cryoelectron microscopy 的研究論文【2】。
CryoSeek的工作流程包括以下幾個(gè)步驟:1)從自然來(lái)源收集樣本;2)用過(guò)濾、濃縮等簡(jiǎn)單程序處理樣品;3a)執(zhí)行標(biāo)準(zhǔn)冷凍樣品制備和冷凍電鏡數(shù)據(jù)采集,或3b)通過(guò)其他方法(例如宏基因組測(cè)序和質(zhì)譜分析)來(lái)表征樣品;4)冷凍電鏡數(shù)據(jù)處理;5)AI輔助自動(dòng)建模;6)結(jié)合步驟3b的其他生物信息學(xué)分析結(jié)果,根據(jù)其結(jié)構(gòu)識(shí)別相應(yīng)的生物實(shí)體。
首先,顏寧團(tuán)隊(duì)使用冷凍電鏡(cryo-EM)對(duì)清華荷塘的濾過(guò)水樣進(jìn)行觀察分析,發(fā)現(xiàn)了豐富多樣的生物大分子,其中長(zhǎng)短、粗細(xì)不一的纖維狀結(jié)構(gòu)在占據(jù)主導(dǎo)地位。然后,顏寧團(tuán)隊(duì)通過(guò)三維重構(gòu)獲得了多個(gè)纖維結(jié)構(gòu)的高分辨率電鏡密度圖。
接下來(lái),利用清華大學(xué)張強(qiáng)鋒團(tuán)隊(duì)開(kāi)發(fā)的基于AI算法的CryoNet軟件進(jìn)行自動(dòng)模型搭建,獲得了兩種高度相似的螺旋纖維蛋白的三維結(jié)構(gòu),顏寧團(tuán)隊(duì)將其命名為T(mén)LP-1a和TLP-1b,每一種直徑約為8 nm。
進(jìn)一步的生物信息學(xué)分析顯示,TLP-1a和TLP-1b這兩種纖維狀蛋白具有獨(dú)特的形狀和厚度,來(lái)自完全未知的物種。研究團(tuán)隊(duì)認(rèn)為,其很可能是某種細(xì)菌用于物質(zhì)傳遞和輔助運(yùn)動(dòng)的菌毛。
總的來(lái)說(shuō),這項(xiàng)研究展示了結(jié)構(gòu)生物學(xué)的范式轉(zhuǎn)變,之前的結(jié)構(gòu)生物學(xué)總是應(yīng)用于已知的物質(zhì),而現(xiàn)在,在蛋白質(zhì)序列和來(lái)源完全未知的情況下,完全基于高分辨率的結(jié)構(gòu)測(cè)定實(shí)現(xiàn)了對(duì)未知生物實(shí)體的物質(zhì)鑒定和功能預(yù)測(cè),使結(jié)構(gòu)生物學(xué)成為探索完全未知物質(zhì)的驅(qū)動(dòng)力。
此外,該研究提出的CryoSeek策略還可以擴(kuò)展到識(shí)別來(lái)自河流、海洋、雨滴的生物實(shí)體,甚至來(lái)自深海、熱液噴口甚至太空等極端環(huán)境的生物實(shí)體,從而有助于將結(jié)構(gòu)生物學(xué)擴(kuò)展到結(jié)構(gòu)X學(xué)(Structural X-ology),例如結(jié)構(gòu)病理學(xué)(Structural pathology)、結(jié)構(gòu)生態(tài)學(xué)(Structural ecology)、結(jié)構(gòu)考古學(xué)(Structural archeology)等。
2024年12月15日,顏寧、李張強(qiáng)等在預(yù)印本平臺(tái) bioRxiv 發(fā)表了題為:The 8-nm spaghetti: well-structured glycans coating linear tetrapeptide repeats discovered from freshwater with CryoSeek 的研究論文【3】。
顏寧團(tuán)隊(duì)之前開(kāi)發(fā)了一種名為CryoSeek(酷尋)的研究策略——使用冷凍電鏡(cryo-EM)從自然或內(nèi)源性資源中識(shí)別未表征的全新生物實(shí)體。
在這項(xiàng)新研究中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一種高度糖基化的蛋白纖維——TLP-4b,其主要分子質(zhì)量歸因于一個(gè)厚聚糖殼。由于多個(gè)AI輔助軟件都無(wú)法自動(dòng)搭建出其蛋白結(jié)構(gòu),研究團(tuán)隊(duì)進(jìn)行了人工手動(dòng)搭建,確定了其結(jié)構(gòu),3.3 分辨率的冷凍電鏡結(jié)構(gòu)重建揭示了該糖蛋白纖維的唯一蛋白質(zhì)成分——直徑約為8 nm的四肽重復(fù)線性多肽鏈。每個(gè)四肽重復(fù)序列包含1個(gè)保守的3,4-二羥脯氨酸(diHyp)、1個(gè)絲氨酸或蘇氨酸,以及2個(gè)較少保守的氨基酸殘基組成。其中,3,4-二羥脯氨酸的3-OH與4-OH均高度O-糖基化,絲氨酸或蘇氨酸同樣存在O-糖基化。
在三維重構(gòu)區(qū)段中,該纖維結(jié)構(gòu)高度規(guī)則,其折疊形式完全由糖質(zhì)間的相互作用維持,并且由于高重復(fù)性,這些糖質(zhì)的組裝也是高度有序的。通過(guò)計(jì)算氨基酸和糖質(zhì)的比例發(fā)現(xiàn),該纖維結(jié)構(gòu)中糖質(zhì)的質(zhì)量占比達(dá)到了驚人的95%以上。
總的來(lái)說(shuō),該研究揭示了聚糖在糖綴合物結(jié)構(gòu)折疊中的關(guān)鍵作用,并有助于理解生物圈中的碳/氮比值。該研究也進(jìn)一步證明了CryoSeek(酷尋)在發(fā)現(xiàn)完全未知的生物實(shí)體方面的能力,有望成為推動(dòng)一系列新研究的起點(diǎn)。
論文鏈接:
1. https://www.pnas.org/doi/10.1073/pnas.2423943122
2. https://www.pnas.org/doi/10.1073/pnas.2417046121
3. https://www.biorxiv.org/content/10.1101/2024.12.15.627649v1
合作咨詢
肖女士 021-33392297 Kelly.Xiao@imsinoexpo.com