Nature子刊：機(jī)器學(xué)習(xí)在臨床前藥物發(fā)現(xiàn)中的現(xiàn)狀與未來

熱門推薦：臨床前 , 機(jī)器學(xué)習(xí) , 藥物發(fā)現(xiàn) ,

來源：生物世界

2024-07-29

藥物發(fā)現(xiàn)和開發(fā)是一項既費力又費錢且耗時的復(fù)雜過程。從靶點識別到藥物上市，整個過程可能長達(dá)12年，耗資超過25億美元，但成功率卻不足10%。盡管近年來技術(shù)取得了顯著進(jìn)步，但藥物開發(fā)的成功率依然很低，成本高昂。

藥物發(fā)現(xiàn)和開發(fā)是一項既費力又費錢且耗時的復(fù)雜過程。從靶點識別到藥物上市，整個過程可能長達(dá)12年，耗資超過25億美元，但成功率卻不足10%。盡管近年來技術(shù)取得了顯著進(jìn)步，但藥物開發(fā)的成功率依然很低，成本高昂。因此，如何提高藥物研發(fā)效率、降低成本成為業(yè)界亟待解決的問題。機(jī)器學(xué)習(xí)（Machine Learning，ML）技術(shù)的發(fā)展，尤其是深度學(xué)習(xí)（Deep Learning，DL）的興起，為藥物研發(fā)提供了新的機(jī)遇。

2024年7月19日，加拿大麥克馬斯特大學(xué)的研究人員在 Nature Chemical Biology 期刊發(fā)表了題為：Machine learning in preclinical drug discovery 的文章，討論了在藥物發(fā)現(xiàn)的臨床前階段整合機(jī)器學(xué)習(xí)方法的現(xiàn)狀和未來前景，重點關(guān)注其在不同疾病領(lǐng)域的應(yīng)用，以加速初始藥物發(fā)現(xiàn)、作用機(jī)制（MOA）闡明和化學(xué)性質(zhì)優(yōu)化。

新藥研發(fā)涉及多個復(fù)雜環(huán)節(jié)，包括靶點識別、化合物篩選、活性驗證、作用機(jī)制闡明及臨床前和臨床試驗等。傳統(tǒng)的藥物篩選方法，如高通量篩選（HTS），盡管可以大規(guī)模測試化合物庫，但成本高昂且耗時。此外，從HTS中篩選出的化合物往往需要在后續(xù)階段經(jīng)過復(fù)雜的驗證和優(yōu)化，進(jìn)一步增加了研發(fā)周期和成本。據(jù)統(tǒng)計，從候選藥物進(jìn)入臨床試驗到最終上市的成功率僅為10%左右，大部分候選藥物在臨床試驗階段因缺乏療效、毒性過高或不符合市場需求等原因而失敗。

機(jī)器學(xué)習(xí)，尤其是深度學(xué)習(xí)，具有從大規(guī)模復(fù)雜數(shù)據(jù)集中自動提取特征并進(jìn)行預(yù)測的能力。隨著生物和化學(xué)數(shù)據(jù)的不斷積累，機(jī)器學(xué)習(xí)技術(shù)在藥物研發(fā)中的應(yīng)用前景日益廣闊。與傳統(tǒng)方法相比，機(jī)器學(xué)習(xí)具有以下優(yōu)勢：

1、高效篩選：基于機(jī)器學(xué)習(xí)的虛擬篩選技術(shù)可以快速評估大規(guī)?；衔飵?，從而顯著提高篩選效率。

2、精準(zhǔn)預(yù)測：通過訓(xùn)練大量數(shù)據(jù)，機(jī)器學(xué)習(xí)模型能夠預(yù)測化合物的生物活性、毒性、藥代動力學(xué)等關(guān)鍵參數(shù)，為藥物優(yōu)化提供指導(dǎo)。

3、闡明作用機(jī)制：結(jié)合蛋白質(zhì)結(jié)構(gòu)預(yù)測技術(shù)，機(jī)器學(xué)習(xí)有助于揭示化合物的作用機(jī)制，為基于結(jié)構(gòu)的藥物設(shè)計提供理論依據(jù)。

機(jī)器學(xué)習(xí)在藥物研發(fā)中的應(yīng)用

在這篇文章中，作者概述了各種機(jī)器學(xué)習(xí)方法在一系列疾病領(lǐng)域的小分子療法臨床前藥物發(fā)現(xiàn)中的應(yīng)用?？梢苑譃橐韵氯齻€藥物發(fā)現(xiàn)步驟：

圖1：機(jī)器學(xué)習(xí)在藥物發(fā)現(xiàn)中的應(yīng)用

第1步：靶點識別

在藥物研發(fā)的初期階段，首先需要確定潛在的藥物靶點。機(jī)器學(xué)習(xí)技術(shù)在這一階段的應(yīng)用主要體現(xiàn)在虛擬篩選和分子特征化上。

虛擬篩選

傳統(tǒng)的HTS方法成本高、耗時長，且命中率較低。以機(jī)器學(xué)習(xí)為指導(dǎo)的虛擬篩選技術(shù)提供了一種更為高效的替代方案。虛擬篩選通過構(gòu)建ML模型，對化合物庫中的分子進(jìn)行快速評估，從而篩選出具有潛在生物活性的化合物。例如，深度定量結(jié)構(gòu)-活性關(guān)系模型（DQSAR）利用深度學(xué)習(xí)模型量化結(jié)構(gòu)-活性關(guān)系，改進(jìn)了大型化學(xué)庫的虛擬篩選效果。

圖2：ML引導(dǎo)的虛擬篩查

分子特征化

分子特征化是虛擬篩選的關(guān)鍵步驟。傳統(tǒng)的分子表征方法，如指紋向量，往往無法捕捉分子連通性的上下文細(xì)節(jié)。近年來，基于圖神經(jīng)網(wǎng)絡(luò)（GNN）的方法，如有向信息傳遞神經(jīng)網(wǎng)絡(luò)（D-MPNN），通過結(jié)合任務(wù)和上下文感知分子嵌入，顯著提高了分子特征化的準(zhǔn)確性。這些模型在抗菌藥物的發(fā)現(xiàn)中取得了顯著成果，如鹵化霉素和阿巴霉素的發(fā)現(xiàn)。

第2步：MOA闡明

在確定了潛在藥物后，需要詳細(xì)闡明其作用機(jī)制（MOA）。MOA闡明涉及復(fù)雜的生物實驗和數(shù)據(jù)分析，機(jī)器學(xué)習(xí)技術(shù)在這一階段同樣發(fā)揮著重要作用。

蛋白質(zhì)結(jié)構(gòu)預(yù)測

蛋白質(zhì)結(jié)構(gòu)預(yù)測是MOA闡明的基礎(chǔ)。近年來，基于深度學(xué)習(xí)的蛋白質(zhì)結(jié)構(gòu)預(yù)測方法取得了突破性進(jìn)展。例如，AlphaFold（AF2）通過多序列比對（MSA）和深度學(xué)習(xí)技術(shù)，成功預(yù)測了多種蛋白質(zhì)的三維結(jié)構(gòu)。盡管AF2在某些復(fù)雜結(jié)構(gòu)預(yù)測上仍存在局限性，但其準(zhǔn)確性已足以支持基于結(jié)構(gòu)的藥物設(shè)計。

圖3：AF2用于MOA說明

蛋白質(zhì)對接和計算設(shè)計

蛋白質(zhì)對接技術(shù)通過模擬配體與受體的相互作用，預(yù)測結(jié)合親和力和結(jié)合模式。然而，傳統(tǒng)對接算法計算量大、耗時長?；谏疃葘W(xué)習(xí)的對接技術(shù)，如DiffDock，通過將對接過程轉(zhuǎn)化為生成建模問題，顯著提高了對接效率。此外，擴(kuò)散生成模型（DGM）也被應(yīng)用于蛋白質(zhì)設(shè)計任務(wù)，如RoseTTAFold diffusion（RFdiffusion），能夠生成具有特定功能特性的蛋白質(zhì)。

圖4：MOA闡明的擴(kuò)散模型

第3步：轉(zhuǎn)化研究

在臨床前藥物發(fā)現(xiàn)的后期階段，主要目標(biāo)是將有前景的分子優(yōu)化為更可行的候選藥物。機(jī)器學(xué)習(xí)算法在這一階段的應(yīng)用主要體現(xiàn)在多屬性優(yōu)化和藥物特性預(yù)測上。

多性質(zhì)優(yōu)化

傳統(tǒng)的候選藥物優(yōu)化方法依賴于結(jié)構(gòu)-活性關(guān)系研究，通過修改核心子結(jié)構(gòu)來優(yōu)化藥物的各項特性。機(jī)器學(xué)習(xí)算法通過預(yù)測分子的類藥物特性和毒性，為候選藥物的優(yōu)化提供了更為全面的指導(dǎo)。例如，利用ML模型預(yù)測溶解度、口服生物利用度、毒性和hERG安全性等參數(shù)，可以在藥物發(fā)現(xiàn)的早期階段就篩選出具有有利臨床特性的候選藥物。

藥物特性預(yù)測

藥物的溶解度、ADMET特性等是決定其臨床成功與否的關(guān)鍵因素。機(jī)器學(xué)習(xí)算法在這些特性的預(yù)測中表現(xiàn)出色。例如，利用支持向量機(jī)（SVM）、多層感知器（MLP）等模型預(yù)測分子的log(P)值（親脂性指標(biāo)），可以顯著提高預(yù)測的準(zhǔn)確性。此外，通過訓(xùn)練圖卷積神經(jīng)網(wǎng)絡(luò)等模型預(yù)測hERG毒性等關(guān)鍵毒性參數(shù)，可以在藥物發(fā)現(xiàn)的早期階段就排除潛在的毒性風(fēng)險。

結(jié)論和展望

隨著ML技術(shù)的不斷發(fā)展及其在藥物研發(fā)中的廣泛應(yīng)用，未來的藥物發(fā)現(xiàn)過程將更加高效、精準(zhǔn)。然而，要充分發(fā)揮ML技術(shù)的潛力，還需要解決以下幾個關(guān)鍵問題：

1、數(shù)據(jù)質(zhì)量與數(shù)量：高質(zhì)量的大規(guī)模數(shù)據(jù)集是訓(xùn)練高性能ML模型的基礎(chǔ)。因此，需要不斷積累和完善生物和化學(xué)數(shù)據(jù)資源。

2、模型可解釋性：提高M(jìn)L模型的可解釋性對于理解其預(yù)測過程和確保預(yù)測結(jié)果的可靠性至關(guān)重要。未來需要開發(fā)更多具有可解釋性的ML算法和技術(shù)。

3、跨學(xué)科合作：藥物研發(fā)涉及生物學(xué)、化學(xué)、計算機(jī)科學(xué)等多個領(lǐng)域。加強(qiáng)跨學(xué)科合作有助于充分發(fā)揮各自領(lǐng)域的優(yōu)勢，共同推動藥物研發(fā)的進(jìn)步。

機(jī)器學(xué)習(xí)技術(shù)在藥物研發(fā)中的應(yīng)用為傳統(tǒng)方法帶來了革命性的變革。通過整合ML技術(shù)，可以顯著提高藥物篩選的效率、準(zhǔn)確性和成功率。未來隨著數(shù)據(jù)資源的不斷豐富和算法技術(shù)的不斷進(jìn)步，機(jī)器學(xué)習(xí)在藥物研發(fā)中的應(yīng)用前景將更加廣闊。我們有理由相信，在不久的將來，機(jī)器學(xué)習(xí)技術(shù)將成為藥物研發(fā)不可或缺的一部分，為人類健康事業(yè)作出更大的貢獻(xiàn)。

參考資料：

https://www.nature.com/articles/s41589-024-01679-1

如果這篇文章侵犯了您的權(quán)利，請聯(lián)系我們。