摘要:
醫(yī)療大數(shù)據(jù)的研究是大數(shù)據(jù)研究領(lǐng)域的重要方向,醫(yī)療大數(shù)據(jù)的研究進展高度依賴于數(shù)據(jù)的有效治理和智能分析。本文圍繞醫(yī)療大數(shù)據(jù)的國內(nèi)外研究與應(yīng)用現(xiàn)狀,著重探討醫(yī)療大數(shù)據(jù)和人工智能技術(shù)面臨的機遇和挑戰(zhàn),包括人工智能大語言模型和生成式預(yù)訓(xùn)練模型(GPT)等技術(shù)的應(yīng)用、機器學(xué)習(xí)、深度學(xué)習(xí)算法等醫(yī)療應(yīng)用前沿?zé)狳c,論述世界范圍內(nèi)在醫(yī)療大數(shù)據(jù)安全和隱私保護方面的工作,為健康醫(yī)療大數(shù)據(jù)更好的實踐應(yīng)用提供借鑒。
選自《上海醫(yī)學(xué)》2023年第46卷第7期
作者:肖慶穎 于廣軍
在過去的20年里,各個領(lǐng)域的大規(guī)模數(shù)據(jù)不斷增加,“大數(shù)據(jù)”一詞主要用來描述海量數(shù)據(jù)集。在全球生物醫(yī)學(xué)數(shù)據(jù)量呈爆炸性增長的背景下,如今醫(yī)療數(shù)據(jù)量被預(yù)測將達40萬億GB。與傳統(tǒng)數(shù)據(jù)集相比,大數(shù)據(jù)通常包含大量非結(jié)構(gòu)化數(shù)據(jù),需要進行更多實時分析,大數(shù)據(jù)分析作為一種先進的分析技術(shù),涉及大規(guī)模且復(fù)雜的應(yīng)用。2019年WHO《數(shù)字健康全球戰(zhàn)略2020-2025》提出要促進全球合作并促進數(shù)字健康知識的轉(zhuǎn)移;推進國家數(shù)字衛(wèi)生戰(zhàn)略的實施;在全球和國家層面加強數(shù)字醫(yī)療治理;倡導(dǎo)以數(shù)字醫(yī)療為基礎(chǔ)、以人為本的醫(yī)療系統(tǒng)。
在當(dāng)今時代背景下,人工智能(artificial intelligence,AI)是一種引發(fā)諸多領(lǐng)域產(chǎn)生顛覆性變革的前沿技術(shù)。近5年來,“AI+”應(yīng)用于醫(yī)療研究已成為現(xiàn)代科技的熱點,數(shù)據(jù)存儲和處理技術(shù)的快速進步為AI模型和算法的開發(fā)創(chuàng)造了良好的環(huán)境,引領(lǐng)醫(yī)學(xué)走在AI的時代前沿。
1.國內(nèi)現(xiàn)狀
1.1 美國和歐洲現(xiàn)狀
在全球醫(yī)療大數(shù)據(jù)應(yīng)用方面,隨著以深度學(xué)習(xí)為代表的AI帶來的技術(shù)和產(chǎn)品不斷涌現(xiàn)重大突破,美國已開始進行大數(shù)據(jù)、AI技術(shù)與醫(yī)療健康領(lǐng)域深度結(jié)合。美國擁有完整的醫(yī)療健康大數(shù)據(jù)庫,建成覆蓋本土的12個區(qū)域電子病歷數(shù)據(jù)中心、9個醫(yī)療知識中心、8個醫(yī)學(xué)影像與生物信息數(shù)據(jù)中心。美國國立衛(wèi)生研究院還著重發(fā)起B(yǎng)ig Data to Knowledge計劃,通過資助研究項目、培訓(xùn)科學(xué)家和建立數(shù)據(jù)共享平臺等方式,促進生物醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用。在戰(zhàn)略規(guī)劃方面,2016年,美國將AI為醫(yī)療診斷和處方治療提供決策支持系統(tǒng)列入《國家人工智能研究和發(fā)展戰(zhàn)略計劃》。2021年,美國《國家數(shù)字健康戰(zhàn)略》提出建設(shè)一個能夠及時提供信息,使針對公眾健康的決策和行動更加明智的、數(shù)字化的健康生態(tài)系統(tǒng)。美國加州大學(xué)的研究團隊在JAMA上首次報道AI從10萬余幅眼底視網(wǎng)膜照片中診斷糖尿病視網(wǎng)膜病變,與54位有美國醫(yī)師執(zhí)照的眼科醫(yī)師及高年資住院醫(yī)師的診斷結(jié)果相比較,其靈敏度及特異度均高于人工判斷,該研究為醫(yī)療AI領(lǐng)域具有代表性的研究。2023年,熱度很高的ChatGPT(Chat Generative Pre-trained Transformer )主要用于患者的實時醫(yī)療咨詢、隨訪、健康教育等。
歐洲的醫(yī)療信息化和醫(yī)院管理水平較高,AI在健康管理、醫(yī)院管理、智能問診等領(lǐng)域的應(yīng)用較為成熟。英國Babylon Health公司通過AI為用戶提供遠程醫(yī)療問診服務(wù),全球用戶達到430萬人,每天可進行4 000個臨床咨詢,已完成120多萬人次數(shù)字咨詢。在英國,大數(shù)據(jù)和AI已成為大力發(fā)展的戰(zhàn)略領(lǐng)域之一。在醫(yī)學(xué)AI領(lǐng)域方面,德國政府將“大數(shù)據(jù)+AI”視為未來經(jīng)濟的重要增長點,2018年11月出臺了《人工智能戰(zhàn)略》,其口號為“AI Made in Germany”。德國柏林的學(xué)者研發(fā)了一款基于AI的醫(yī)療健康應(yīng)用軟件Ada Health, 該軟件可識別1萬多種病癥和疾病,已被應(yīng)用于歐洲家庭醫(yī)師領(lǐng)域,其診斷準(zhǔn)確率超過90%。
1.2 中國現(xiàn)狀
中國的大數(shù)據(jù)與醫(yī)療結(jié)合的需求重點在輔助診斷、患者虛擬助手、醫(yī)學(xué)影像分析等方面,醫(yī)藥開發(fā)相對落后。在中國,AI技術(shù)在影像識別和輔助診斷領(lǐng)域的應(yīng)用較為廣泛,在其他場景中的應(yīng)用也快速發(fā)展,展現(xiàn)出多元發(fā)展態(tài)勢。從本質(zhì)上來看,中國對當(dāng)下醫(yī)療體系的窘境有著深度認知,因此大數(shù)據(jù)和AI作為能幫助中國醫(yī)療體系革新,為臨床醫(yī)師對患者進行診治帶來便利的技術(shù)手段,受到了較高程度的重視和應(yīng)用。2022年10月,黨的二十大報告對推進健康中國和數(shù)字中國戰(zhàn)略做出了重要部署:要求把保障人民健康放在優(yōu)先發(fā)展的戰(zhàn)略位置,完善人民健康促進政策,構(gòu)建新一代信息技術(shù)、AI、生物技術(shù)等一批新的增長引擎。2023年2月,中共中央、國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃》,其中強調(diào)要“在農(nóng)業(yè)、工業(yè)、醫(yī)療等重點領(lǐng)域,加快數(shù)字技術(shù)創(chuàng)新應(yīng)用”,并明確提到“發(fā)展數(shù)字健康”等內(nèi)容,彰顯了我國對利用大數(shù)據(jù)賦能社會發(fā)展的堅定決心。
本述評重點討論醫(yī)療大數(shù)據(jù)中AI技術(shù)的研究和進展,以及醫(yī)療大數(shù)據(jù)如何實現(xiàn)下一代AI。
2.大數(shù)據(jù)在醫(yī)學(xué)AI中的應(yīng)用
計算促進了臨床研究中各關(guān)鍵領(lǐng)域的發(fā)展,基于AI的算法為研究人員提供了更多的用途方向。目前,機器學(xué)習(xí)算法已被廣泛應(yīng)用于設(shè)計圖像的學(xué)科領(lǐng)域中,包括病理圖像、超聲成像、內(nèi)窺鏡成像等,提高了診斷準(zhǔn)確率,并可對疾病的嚴(yán)重程度進行分類。此外,臨床腫瘤學(xué)已成為機器學(xué)習(xí)最重要的領(lǐng)域,機器學(xué)習(xí)利用數(shù)據(jù)來學(xué)習(xí)數(shù)據(jù)集的模式和結(jié)構(gòu),豐富的成像和分子數(shù)據(jù)促進了機器學(xué)習(xí)的應(yīng)用,并將這些數(shù)據(jù)源與早期癌癥檢測、癌癥進展監(jiān)測和確定最佳治療方法相關(guān)聯(lián)。Placido等展示了AI在識別癌癥高風(fēng)險人群方面的潛力,研究人員利用丹麥600萬例患者和美國300萬例患者的臨床數(shù)據(jù)開發(fā)機器學(xué)習(xí)模型;根據(jù)患者的病史,評估罹患胰腺癌的風(fēng)險,最佳模型在36個月內(nèi)預(yù)測癌癥發(fā)生的AUC的ROC為0.88。這樣類似的研究問題和方法同樣適用于兒科領(lǐng)域。同時,將深度學(xué)習(xí)應(yīng)用于多種生物標(biāo)志物分析的研究結(jié)果表明,其診斷的靈敏度和特異度均有所提高。澳大利亞莫納什大學(xué)癌癥研究團隊利用機器學(xué)習(xí)方法為224個兒童癌癥細胞系建立了一個多組學(xué)癌癥細胞系圖譜,能夠更準(zhǔn)確地對兒童癌癥類型進行分類,通過藥理學(xué)和遺傳學(xué)CRISPR-Cas9功能喪失篩選,確認了兒童癌癥中132種基因依賴性和53種藥物敏感性細胞系,助力探索兒童癌癥特異性生物標(biāo)志物。以深度學(xué)習(xí)為代表的AI技術(shù)可基于大數(shù)據(jù)驅(qū)動的算法,學(xué)習(xí)并模擬人類行為,處理海量、高維數(shù)據(jù)。2021年,美國華盛頓國立兒童醫(yī)院的研究團隊利用2800張兒童的面部照片開發(fā)出一種基于深度神經(jīng)網(wǎng)絡(luò)和面部統(tǒng)計模型的遺傳病篩查技術(shù),該模型能夠在普通兒科人群中識別遺傳畸形,解釋與種族、年齡和性別相關(guān)的表型變異。
深度學(xué)習(xí)方法帶來了蛋白質(zhì)結(jié)構(gòu)預(yù)測的革命,隨著AlphaFold的發(fā)展,準(zhǔn)確的蛋白質(zhì)結(jié)構(gòu)預(yù)測在很大程度上已為更多的人所接受,除了單體蛋白質(zhì),AlphaFold-Multimer還展示了較強的蛋白質(zhì)復(fù)合物建模能力。在制藥領(lǐng)域,3名高中生利用由20余種預(yù)測模型和生物學(xué)模型構(gòu)成的AI靶點發(fā)現(xiàn)引擎PandaOmics,識別出3個全新的針對衰老和膠質(zhì)母細胞瘤的潛在雙效靶點,相關(guān)研究成果發(fā)表在Aging上,顯示了AI系統(tǒng)輔助新藥研發(fā)的廣闊前景。
2.2 大語言模型賦能醫(yī)療大數(shù)據(jù)的利用
AI在醫(yī)療診斷和臨床決策中的作用越來越受到重視,高度靈活且可重復(fù)使用的AI模型的快速發(fā)展,有望為醫(yī)學(xué)領(lǐng)域帶來全新變革。在AI領(lǐng)域的前沿進展中,生成式預(yù)訓(xùn)練模型在自然語言處理和計算機視覺等領(lǐng)域取得了成功,隨著算力的不斷提升,語言模型已從最初基于概率預(yù)測的模型逐步走向大語言模型的時代。大語言模型指網(wǎng)絡(luò)規(guī)模巨大的深度學(xué)習(xí)模型,具體表現(xiàn)為模型參數(shù)量規(guī)模較大(通常為千億級別),大語言模型是在大量通用文本數(shù)據(jù)上進行訓(xùn)練,以學(xué)習(xí)語言中的模式與實體關(guān)系。研究結(jié)果表明,大語言模型具有明顯的新能力,能夠補充現(xiàn)有的因果方法,通過捕捉與任務(wù)相關(guān)的人類領(lǐng)域知識,形成任何因果分析的重要組成部分。
2022年以來,以ChatGPT為代表的AI大語言模型開始崛起,大語言模型在解釋和生成廣泛領(lǐng)域的序列方面表現(xiàn)出非凡的能力。目前有研究者將GPT-4作為一種醫(yī)療AI聊天機器人,支持自然語言發(fā)問,簡化了AI的應(yīng)用流程,并極大地拓展了其在醫(yī)學(xué)領(lǐng)域的應(yīng)用范圍,包括醫(yī)學(xué)圖像分析、藥物相互作用檢測、高?;颊咦R別和醫(yī)療記錄編輯等。Lee等研究中,1例COPD患者與GPT-4進行了兩輪深度對話,結(jié)果顯示,GPT-4給出了如何確定患者病情發(fā)生惡化、病情惡化的主要特征及是否需要緊急治療等信息,整體回答結(jié)果可與臨床醫(yī)師相媲美。在醫(yī)學(xué)圖像報告分析領(lǐng)域,利用ChatGPT開發(fā)的ChatCAD能夠基于圖像生成報告,并利用大語言模型廣泛且可靠的醫(yī)學(xué)知識來提供交互式的影像報告解釋和建議。除了在醫(yī)療文本和醫(yī)療對話領(lǐng)域,大語言模型在單細胞生物學(xué)領(lǐng)域也展現(xiàn)出非常良好的涌現(xiàn)思維。近日,加拿大彼得·蒙克心臟中心的研究人員,通過利用呈指數(shù)增長的單細胞測序數(shù)據(jù),首次嘗試對超過1000萬個細胞進行生成式預(yù)訓(xùn)練來構(gòu)建單細胞基礎(chǔ)模型scGPT,這是第1個基于單細胞生物學(xué)的大語言模型。
2023年4月Nature上發(fā)表的文章提出通用醫(yī)療AI(general medical artificial intelligence, GMAI)的范式,GMAI模型可使用少量數(shù)據(jù)或沒有指定標(biāo)記的數(shù)據(jù)來執(zhí)行不同的任務(wù)。相比于當(dāng)前的醫(yī)學(xué)AI模型,GMAI提供了更靈活的交互方式,使不同受眾群體更容易理解其輸出,并在不同任務(wù)和環(huán)境中提供前所未有的靈活性。目前研究關(guān)注于在無機器學(xué)習(xí)或數(shù)據(jù)科學(xué)專家的情況下,使開發(fā)高性能的醫(yī)療AI模型成為可能。Wagner等使用Google CloudAutoML開發(fā)了一個無代碼深度學(xué)習(xí)分類器和定制模型,用于在英國倫敦的多種族人群中早產(chǎn)兒視網(wǎng)膜病變的分類,這兩種模型的分類結(jié)果與高年資兒童眼科醫(yī)師的分類結(jié)果相似,該研究突顯了自動機器學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的潛力,可以在缺乏數(shù)據(jù)科學(xué)專業(yè)知識的資源匱乏地區(qū)開發(fā)針對其特定人群的優(yōu)化模型。
2.3 數(shù)據(jù)安全和隱私保護
由于醫(yī)療數(shù)據(jù)的復(fù)雜性和敏感性,醫(yī)療AI平臺的開發(fā)和應(yīng)用也面臨一些挑戰(zhàn),如數(shù)據(jù)隱私保護、技術(shù)安全性等。2016年,Scientific Data上發(fā)表了《科學(xué)數(shù)據(jù)管理和監(jiān)督的FAIR指導(dǎo)原則》,F(xiàn)AIR原則強調(diào)機器的可操作性,即計算系統(tǒng)在沒有或最少人工干預(yù)的情況下查找、訪問、互操作和重用數(shù)據(jù)的能力。歐盟于2018年通過了通用數(shù)據(jù)保護條例(general data protection regulation, GDPR),規(guī)定在處理個人數(shù)據(jù)方面保護自然人及此類數(shù)據(jù)的自由流動,該法規(guī)旨在保護歐盟公民的個人數(shù)據(jù)和隱私權(quán),并規(guī)定了個人數(shù)據(jù)的收集、使用、處理和存儲的方式。GDPR具有適用范圍廣泛、處罰嚴(yán)格、強調(diào)對個人數(shù)據(jù)的保護和強制性通知義務(wù)等特點,被認為是“史上最嚴(yán)”的個人數(shù)據(jù)保護條例。
我國數(shù)據(jù)監(jiān)管和應(yīng)用促進的法律法規(guī)起步較晚,但發(fā)展速度很快。2021年以來頒布的《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護條例》《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》《數(shù)據(jù)出境安全評估辦法》,以及2022年國家衛(wèi)生健康委員會等3部門聯(lián)合發(fā)布《醫(yī)療衛(wèi)生機構(gòu)網(wǎng)絡(luò)安全管理辦法》,為醫(yī)療衛(wèi)生機構(gòu)的網(wǎng)絡(luò)和數(shù)據(jù)安全管理提供指導(dǎo),以充分發(fā)揮健康醫(yī)療大數(shù)據(jù)作為國家重要基礎(chǔ)性戰(zhàn)略資源的積極作用,為健康醫(yī)療大數(shù)據(jù)合規(guī)、開放提供依據(jù)。
醫(yī)療大數(shù)據(jù)的研究及應(yīng)用成為各國醫(yī)學(xué)健康領(lǐng)域發(fā)展的新引擎,也是引領(lǐng)科技變革的新動能。我國在醫(yī)療大數(shù)據(jù)的研究建設(shè)起步較晚,目前仍面臨著數(shù)據(jù)孤島尚未完全打破、數(shù)據(jù)質(zhì)量和治理效能需要提升、醫(yī)療大數(shù)據(jù)的開放使用需要破局、AI需要與大數(shù)據(jù)深度融合等問題。在大語言模型時代到來的今天,ChatGPT影響了醫(yī)療行業(yè)的變革,加上機器學(xué)習(xí)、深度學(xué)習(xí)算法等AI技術(shù)的賦能,使醫(yī)療大數(shù)據(jù)的發(fā)展越來越迅速。醫(yī)療大數(shù)據(jù)和AI技術(shù)的蓬勃發(fā)展改變了既往醫(yī)學(xué)模式,可在不同層面提高醫(yī)療水平和保障人類健康。
智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有 ICP備案號:滬ICP備17004559號-5