人類必需蛋白(Human essential protein,HEP)對于個(gè)體的生存和發(fā)育是必不可少的。然而,鑒定HEP的實(shí)驗(yàn)方法往往昂貴、耗時(shí)和勞動(dòng)密集型的,例如CRISPR-Cas9基因敲除實(shí)驗(yàn)及基因過表達(dá)實(shí)驗(yàn),且這些實(shí)驗(yàn)方法難以推廣到人類全蛋白質(zhì)組。
因此,亟需計(jì)算方法來快速準(zhǔn)確預(yù)測人類全部蛋白質(zhì)的重要性,但現(xiàn)有的計(jì)算方法只能在人源細(xì)胞系水平預(yù)測HEP,而實(shí)際上,HEP在人類、細(xì)胞系和動(dòng)物模型中存在高度差異性。這就要求我們在設(shè)計(jì)預(yù)測算法時(shí),不僅需要提升算法的預(yù)測精度,還要需要考慮蛋白質(zhì)重要性存在的變異性。
近年來,深度學(xué)習(xí)(Deep Learning,DL)和大語言模型(Large Language Model,LLM)技術(shù)的快速發(fā)展,為蛋白質(zhì)重要性預(yù)測提供了新思路。
2024年11月27日,崔慶華團(tuán)隊(duì)在 Nature 子刊 Nature Computational Science 上發(fā)表了題為:Comprehensive prediction and analysis of human protein essentiality based on a pre-trained protein large language model 的研究論文。
該研究通過微調(diào)預(yù)訓(xùn)練的蛋白質(zhì)語言模型,開發(fā)了一個(gè)基于序列的深度學(xué)習(xí)模型——蛋白質(zhì)重要性計(jì)算器(Protein Importance Calculator,PIC),實(shí)現(xiàn)人類蛋白必要性/重要性的綜合預(yù)測和分析。
該研究提出的PIC算法相較于此前最先進(jìn)的計(jì)算方法DeepCellEss獲得顯著性能提升(AUROC和AUPRC分別提升9.64%和10.52%)。
除了具有優(yōu)異的性能外,PIC算法是首個(gè)可以同時(shí)預(yù)測蛋白質(zhì)在人體、人源細(xì)胞系和小鼠中的重要性評(píng)分的工具,能夠?yàn)槿祟愃械鞍踪|(zhì)的重要性進(jìn)行綜合的預(yù)測評(píng)估。在案例研究中,研究團(tuán)隊(duì)使用PIC算法成功預(yù)測了人類乳腺癌中的關(guān)鍵蛋白質(zhì)靶點(diǎn),并證明了其作為乳腺癌患者預(yù)后標(biāo)志物的價(jià)值。
最后,研究團(tuán)隊(duì)使用PIC算法首次為617462種人類微蛋白(Human microproteins)的重要性進(jìn)行了預(yù)測,這將為微蛋白的研究提供有力幫助。
北京大學(xué)基礎(chǔ)醫(yī)學(xué)院醫(yī)學(xué)生物信息學(xué)系博士生康伯銘和已畢業(yè)博士樊銳為論文共同第一作者,崔慶華教授(現(xiàn)為武漢體育學(xué)院教授)為論文通訊作者,北京大學(xué)基礎(chǔ)醫(yī)學(xué)院為論文第一單位。
論文鏈接:https://www.nature.com/articles/s43588-024-00733-1
合作咨詢
肖女士 021-33392297 Kelly.Xiao@imsinoexpo.com