研究概述 了解疾病、藥物、基因、生物通路等實體間的相互作用關系是采用智能方法進行藥物初步篩選的關鍵。對于相互作用關系的預測問題,一種常用的方法是對涉及多種生物醫(yī)學實體的異構網絡進行系統(tǒng)性地分析。近年來,圖神經網絡成為關系預測領域的熱門研究方向。然而,生物相互作用網絡固有的異構復雜性和海量的數據提出了巨大的挑戰(zhàn)。本文旨在開發(fā)一個數據驅動的模型,該模型能夠從交互網絡中學習潛在的信息并做出較為準確的預測。 作者開發(fā)了BioNet,通過整合與化合物、基因、生物通路和疾病相關的數據集,構建了一個大規(guī)模的異質生物相互作用網絡,并基于編碼器-解碼器架構提出了一種深度圖卷積網絡模型。該模型利用圖卷積編碼器從子圖中學習網絡中節(jié)點的嵌入表示,并采用張量分解解碼器計算化合物-基因相互作用的概率;同時,為了解決大規(guī)模圖模型訓練的效率問題,開發(fā)對應的并行策略,有效加速了模型的計算過程并提升了模型的可擴展性。最后,利用BioNet預測與中風和癌癥相關的化合物-基因相互作用,并通過查找文獻和對比相關實驗數據的方式證明了結果的可靠性。很有意思的是,課題組利用BioNet進行了針對新冠關鍵靶標的智能藥物推薦,得到的結果與基于分子動力學模擬的方法得到的結果在較大程度上可以互相印證(課題組2021年基于天河新一代超級計算機完成的“基于自由能微擾-絕對結合自由能方法的大規(guī)模新冠藥物虛擬篩選”工作入圍了2021年度的戈登貝爾新冠特別獎)。這也啟發(fā)我們更多地去探索HPC和AI混合驅動的藥物篩選方法,在保證篩選命中率的同時,盡可能地利用已有知識和智能算法提升整體計算效能。 2 相關方法 (1)網絡構建 利用大規(guī)模生物異構網絡構建了六個二元關系子圖(CC-graph、GG-graph、CP-graph、GP-graph、CD-graph、GD-graph)和一個多元關系子圖(CG-graph)。然后,將這些子圖重新整合為三個組合圖:① CGP 圖、② CGD 圖和 ③ CGPD 圖。 表1 集成的多類型交互圖的統(tǒng)計和數據來源 圖1 每個網絡中包含關系類型 (2)預測模型 圖2 BioNet 的整體架構: 網絡構建→圖表示→圖卷積編碼器→目標節(jié)點嵌入→張量分解解碼器→交互預測 (3)并行優(yōu)化 圖3 跨GPU 節(jié)點的訓練數據分布方案 訓練過程中的計算量主要由連接邊的數量決定。本文將訓練負載拆分為多個批次,從而實現(xiàn)跨多個GPU的高效并行計算。每個GPU都維護一個BioNet模型的副本。在每次傳遞中,梯度融合(Gradient All-Reduce)與梯度計算(Gradient Computation)通過并行的方式對模型參數進行更新。每個GPU上的模型結果是相同的,因為每個GPU都以相同的副本開始,并且由于梯度融合操作,所有GPU上的權重更新都是相同的。BioNet支持識別多種相互作用類型,每種相互作用類型都有不同數量的訓練樣本。在將訓練負載分攤到不同GPU時,需要確保:(1) 分配給每個GPU的整體工作負載需要大致平衡;(2) 分配給每個GPU的特定關系類型的工作負載需要均勻分布。訓練數據的分布方案如圖3所示。代表化合物和基因之間不同類型的關系。 3 結果和討論 BioNet在CGP、CGD和CGPD三個數據集上的所有性能指標(包AUROC、AUPRC和AP@20)的表現(xiàn)優(yōu)于其他方法。與基于GCN的模型相比,BioNet-CGP在AUROC上比GCN-Total提高了12.5%,在AUPRC上提高了17.1%,在AP@20上提高了31.5%。這說明使用二元關系子圖進行預訓練可以為節(jié)點嵌入學習提供有價值的信息。在訓練過程中,BioNet與CGINet相比更均勻地訓練每種類型的關系,從而解決了因每種類型的CG對數量不平衡而導致的一些分類錯誤。 評估了BioNet使用不同數量V100 GPU的并行處理性能。圖4顯示了使用不同數量的GPU訓練BioNet-CGP、BioNet-CGD和BioNet-CGPD所花費的時間。隨著GPU 數量的增加,時間成本顯著降低。例如,當使用相同大小的數據集(BioNet-CGP)時,BioNet并行模型單個Epoch的計算時間減少了近7個小時。16個GPU計算時的并行效率為: 圖4 不同數量GPU下的時間開銷 4 應用示例 新型冠狀病毒的刺突蛋白位于病毒表面,通過與宿主細胞的ACE2受體結合侵入并感染宿主。課題組利用BioNet預測相關的相互作用。打分靠前的相關預測可整理如圖5所示。 圖5 面向新冠關鍵靶標的智能藥物篩選部分結果 圖5中所列結果是采用BioNet預測得到的相關藥物。其中坎地沙坦酯(Candesartan cilexetil)、雙嘧達莫(Dipyridamole)、茚地那韋(Indinavir)等已通過基于分子動力學模擬的的虛擬篩選方法和濕實驗得到驗證,確認是針對 SARS-CoV-2 主蛋白酶 (Mpro)的有效抑制劑。特別是,已有臨床實驗證明,常用的抗血栓藥物雙嘧達莫證明是治療 COVID-19 重癥患者的有效輔助藥物。
智慧醫(yī)療網 ? 2022 版權所有 ICP備案號:滬ICP備17004559號-5