博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 以大模型加速新藥研發(fā),成本降低70%:一家大廠的「云端」實(shí)戰(zhàn)(1)

以大模型加速新藥研發(fā),成本降低70%:一家大廠的「云端」實(shí)戰(zhàn)(1)

發(fā)布人:機(jī)器之心 時(shí)間:2023-05-20 來(lái)源:工程師 發(fā)布文章

最近幾年,AI 加持下的新藥研發(fā)成為被寄予厚望的賽道之一。


從流程上看,藥物研發(fā)分為藥物發(fā)現(xiàn)、臨床前研究、臨床研究、審批與上市四個(gè)階段。醫(yī)藥界有一個(gè)「雙十定律」的說(shuō)法 —— 即需要超過(guò) 10 年時(shí)間、10 億美元的成本,才有可能成功研發(fā)出一款新藥。即使如此,也只有約 10% 新藥能被批準(zhǔn)進(jìn)入臨床期。
目前,AI 技術(shù)的參與主要集中于藥物發(fā)現(xiàn)階段。挑戰(zhàn)在于,雖然 AI 技術(shù)加快了一部分工作的推進(jìn)速度,但 AI 技術(shù)與藥物研發(fā)的 “聯(lián)姻” 并不是一蹴而就的,囿于算法低效、數(shù)據(jù)割裂、數(shù)據(jù)安全、算力瓶頸等挑戰(zhàn),藥物研發(fā)仍然是一項(xiàng)高風(fēng)險(xiǎn)、長(zhǎng)周期、高成本的工作。
鑒于「AI 新藥研發(fā)」還處于待普及階段,學(xué)界和業(yè)界都在探索一種更好的技術(shù)落地模式。數(shù)據(jù)、算法、算力,并列為人工智能技術(shù)發(fā)展的三大要素,也在某種程度上決定了 AI 新藥研發(fā)能夠以何種速度走到最后一步。研發(fā)團(tuán)隊(duì)需要具備的條件很多:大量數(shù)據(jù)資源、充足的算力以及強(qiáng)大的技術(shù)積累。在這樣的情況下,在數(shù)據(jù)、算法、算力三方面均有深厚實(shí)力的大廠似乎更能扛起這份責(zé)任。
路漫漫其修遠(yuǎn)兮,究竟該如何解決遇到的挑戰(zhàn)?
盤(pán)古藥物分子大模型,為新藥研發(fā)提質(zhì)增效
對(duì)于西安交大一附院的劉冰教授來(lái)說(shuō),「雙十定律」給他帶來(lái)的體會(huì)尤其深刻。
2020 年,劉冰教授所在的團(tuán)隊(duì)正在嘗試研發(fā)一種名為「Drug X」的超級(jí)抗菌藥。然而細(xì)菌的進(jìn)化速度是非常驚人的,很多時(shí)候可能等不及一款新藥上市,細(xì)菌就已經(jīng)產(chǎn)生了對(duì)這款藥物的耐藥性。近四十年來(lái),領(lǐng)域內(nèi)都未有新類(lèi)別、新靶點(diǎn)的抗生素出現(xiàn),有些被超級(jí)耐藥菌感染的病人甚至面臨無(wú)藥可用的局面。
「目前一款抗生素的研發(fā)費(fèi)用平均能達(dá)到 16 億美金,如果這款抗生素在還沒(méi)有面世的階段被發(fā)現(xiàn)了細(xì)菌對(duì)它的耐藥性,就等于 16 億美金直接打水漂了。」劉冰教授表示。
想要研制一款超級(jí)抗菌藥,就相當(dāng)于和「耐藥性的產(chǎn)生」進(jìn)行一場(chǎng)時(shí)間賽跑。
傳統(tǒng)的藥物研發(fā)方式顯然是不夠快的,我們可以粗略算一算:藥物研發(fā)平均周期超過(guò) 10 年,其中先導(dǎo)藥物的設(shè)計(jì)就需要 3 到 5 年之久??蒲袌F(tuán)隊(duì)首先要從上億個(gè)小分子化合物中找到對(duì)目標(biāo)靶點(diǎn)最有效的那一個(gè),在這個(gè)過(guò)程中,團(tuán)隊(duì)需要不斷地修改藥物結(jié)構(gòu)來(lái)提高其活性和成藥性。每一次更新藥物結(jié)構(gòu)都意味著合成路線、藥效評(píng)估實(shí)驗(yàn)等系列方案的重設(shè)和驗(yàn)證。
彼時(shí),劉冰教授剛回國(guó)不久,實(shí)驗(yàn)室還在建設(shè)中,他想要帶領(lǐng)團(tuán)隊(duì)進(jìn)行 AI 輔助藥物設(shè)計(jì),但在數(shù)據(jù)、算法、算力三方面都遇到了一些挑戰(zhàn)。
與華為云的合作機(jī)會(huì)讓他看到了新的可能。華為云在 2021 年正式推出了盤(pán)古藥物分子大模型,這是當(dāng)前業(yè)界參數(shù)最大的藥物分子大模型,主要面向藥物研發(fā)領(lǐng)域,提供結(jié)合預(yù)測(cè)、屬性預(yù)測(cè)、分子優(yōu)化與生成能力。
「在科研的整個(gè)過(guò)程中,可能一萬(wàn)次失敗里面才有一次成功。像我們這樣十多個(gè)人的團(tuán)隊(duì),必須要依靠像 AI 這種新技術(shù),才能繞開(kāi)既有壁壘,走出一條新路?!箘⒈淌诒硎?。
劉冰教授所遇到的壁壘,也正是現(xiàn)階段大多數(shù)科研團(tuán)隊(duì)和藥企所遇到的挑戰(zhàn)。而引入 AI 技術(shù)進(jìn)行藥物設(shè)計(jì)的提升是相當(dāng)明顯的:在「藥物分子篩選」和「藥物分子優(yōu)化」這兩大環(huán)節(jié),華為云盤(pán)古藥物分子大模型對(duì) Drug X 的研發(fā)提供了重要幫助。最終,在 AI 大模型的加持下,Drug X 先導(dǎo)藥的研發(fā)周期獲得了數(shù)十倍的加速,從數(shù)年縮短到數(shù)月,研發(fā)成本直接降低了 70%。
這種飛躍式提升是如何實(shí)現(xiàn)的?簡(jiǎn)單來(lái)說(shuō),華為云盤(pán)古藥物分子大模型接受了超大規(guī)模的化合物表征模型訓(xùn)練,預(yù)先對(duì) 17 億個(gè)藥物分子的化學(xué)結(jié)構(gòu)進(jìn)行了學(xué)習(xí),并對(duì)藥物分子結(jié)構(gòu)進(jìn)行預(yù)測(cè)、打分。實(shí)驗(yàn)結(jié)果表明,華為云盤(pán)古藥物分子大模型的成藥性預(yù)測(cè)準(zhǔn)確率比傳統(tǒng)方式高 20%,幫助科研人員省去大量藥物設(shè)計(jì)的成本。此外,該模型還內(nèi)置了高效的分子生成器生成了 1 億個(gè)創(chuàng)新的類(lèi)藥物小分子篩選庫(kù),結(jié)構(gòu)新穎性達(dá) 99.68%,為發(fā)現(xiàn)新藥創(chuàng)造了更多可能性。

圖片

盤(pán)古藥物分子大模型框架。圖源:https://www.biorxiv.org/content/10.1101/2022.03.31.485886v1.full
「盤(pán)古藥物分子大模型的訓(xùn)練前后花費(fèi)兩年的時(shí)間,華為云團(tuán)隊(duì)在模型架構(gòu)設(shè)計(jì)及驗(yàn)證、大規(guī)模百卡昇騰 NPU 的訓(xùn)練都遇到過(guò)挑戰(zhàn),最后都一一解決了。」華為云 EIHealth 醫(yī)療智能體負(fù)責(zé)人喬楠博士介紹說(shuō)。
在這一模型的打造過(guò)程中,華為云團(tuán)隊(duì)首創(chuàng)了名為「圖 - 序列不對(duì)稱(chēng)條件自編碼器」的架構(gòu),將藥物分子結(jié)構(gòu)轉(zhuǎn)換成可量化的數(shù)值,可以更好地在數(shù)值空間定量地對(duì)藥物分子結(jié)構(gòu)與性質(zhì)進(jìn)行預(yù)測(cè)與推薦。在 AI 優(yōu)先推薦的藥物分子基礎(chǔ)上,科研人員可直接選擇評(píng)分較高的藥物分子進(jìn)行人工實(shí)驗(yàn)驗(yàn)證。
這一架構(gòu)的靈感來(lái)源于人類(lèi)認(rèn)識(shí)化合物的兩種方式:分子式和結(jié)構(gòu)式?!肝覀兘虝?huì) AI 用同樣的方法學(xué)習(xí)化合物的分子式和結(jié)構(gòu)式,設(shè)計(jì)了這樣一個(gè)圖和序列不對(duì)稱(chēng)的算法架構(gòu),它的兩端采用的是兩種不同的深度學(xué)習(xí)架構(gòu),圖部分采用了圖深度學(xué)習(xí)、圖卷積的方法,序列部分采用了 Transformer 架構(gòu)。」喬楠博士表示。

圖片

盤(pán)古藥物分子大模型的圖 - 序列不對(duì)稱(chēng)條件自編碼器架構(gòu)。

在縮短研發(fā)時(shí)間、降低研發(fā)成本之外,盤(pán)古藥物分子大模型還能夠?qū)Y選后的先導(dǎo)化合物進(jìn)行定向優(yōu)化,通過(guò)更科學(xué)的藥物結(jié)構(gòu)設(shè)計(jì),降低新藥可能對(duì)人體產(chǎn)生的毒副作用。
在相關(guān)論文發(fā)表前,華為云團(tuán)隊(duì)對(duì)盤(pán)古藥物分子大模型進(jìn)行了多項(xiàng)測(cè)試,結(jié)果表明,該模型在化合物 - 靶標(biāo)相互作用預(yù)測(cè)、化合物 ADME/T(吸收、分配、代謝、排泄、毒性)屬性評(píng)分、化合物分子生成與優(yōu)化等 20 余項(xiàng)藥物發(fā)現(xiàn)任務(wù)上實(shí)現(xiàn)了 SOTA(性能最優(yōu)),可賦能藥物發(fā)現(xiàn)全鏈條任務(wù)。
正如喬楠博士所說(shuō),如果說(shuō)相關(guān)領(lǐng)域內(nèi)的科研是「科學(xué)」,那么盤(pán)古藥物設(shè)計(jì)大模型就是「技術(shù)」,科學(xué)與技術(shù)與相輔相成,才能讓基礎(chǔ)發(fā)現(xiàn)快速轉(zhuǎn)化為一個(gè)可以運(yùn)用到實(shí)際場(chǎng)景的成果。在近兩年的商用中,已有多家藥企借助盤(pán)古藥物分子大模型設(shè)計(jì)出了具備良好活性的新分子。
其中,微芯生物在腫瘤藥物設(shè)計(jì)領(lǐng)域基于華為云能力,將藥物設(shè)計(jì)效率提升 1/3,分子優(yōu)化后結(jié)合能提升 40%,加速腫瘤領(lǐng)域藥物研發(fā)創(chuàng)新研究。
旺山旺水在中樞神經(jīng)系統(tǒng)創(chuàng)新藥物的系列研發(fā)工作中,靶點(diǎn)發(fā)現(xiàn)效率提升 3 倍,分子設(shè)計(jì)實(shí)驗(yàn)時(shí)間及資金成本節(jié)省 60%以上,高靶向性化合物的優(yōu)化設(shè)計(jì)和驗(yàn)證工作量降低五倍以上。


*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專(zhuān)區(qū)

關(guān)閉