中華醫(yī)學(xué)科研管理雜志2024年·37卷·06期 楊照 周煦然 樊笑晗 李貞 馮孟賢 劉久秀 鄭茜子 楊超 向宇
摘要
目的 在分析和總結(jié)北京大學(xué)第一醫(yī)院科研數(shù)據(jù)平臺(tái)建設(shè)相關(guān)經(jīng)驗(yàn)的基礎(chǔ)上,提出醫(yī)療機(jī)構(gòu)健康醫(yī)療大數(shù)據(jù)平臺(tái)建設(shè)的有效路徑,為進(jìn)一步拓展健康醫(yī)療大數(shù)據(jù)平臺(tái)應(yīng)用,推動(dòng)智慧醫(yī)療建設(shè)提供借鑒。
方法 通過(guò)系統(tǒng)化流程收集醫(yī)院多域數(shù)據(jù),分類處理并清洗后,采用國(guó)際醫(yī)學(xué)標(biāo)準(zhǔn)與NLP技術(shù)實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化與結(jié)構(gòu)化。同時(shí),優(yōu)化eCRF表單、數(shù)據(jù)源判斷及數(shù)學(xué)計(jì)算,確??蒲袛?shù)據(jù)平臺(tái)的數(shù)據(jù)質(zhì)量與應(yīng)用價(jià)值。
結(jié)果 北京大學(xué)第一醫(yī)院通過(guò)開(kāi)展科研數(shù)據(jù)平臺(tái)建設(shè),初步實(shí)現(xiàn)了從臨床數(shù)據(jù)向科研數(shù)據(jù)的有效轉(zhuǎn)化,實(shí)現(xiàn)了數(shù)據(jù)的有效采集、系統(tǒng)推送與整合、數(shù)據(jù)清洗與治理,并開(kāi)展了健康醫(yī)療大數(shù)據(jù)研究。
討論 后續(xù)應(yīng)持續(xù)擴(kuò)大數(shù)據(jù)范圍,推動(dòng)將臨床數(shù)據(jù)轉(zhuǎn)變?yōu)榭蒲袛?shù)據(jù);提升臨床專家參與度,進(jìn)行項(xiàng)目的前瞻性設(shè)計(jì)和數(shù)據(jù)的前瞻性采集;以集成平臺(tái)為基礎(chǔ),進(jìn)行數(shù)據(jù)的自動(dòng)推送與調(diào)用;以大語(yǔ)言模型的應(yīng)用為方向,開(kāi)展技術(shù)探索與儲(chǔ)備。
我國(guó)的醫(yī)療信息化發(fā)展歷經(jīng)二十余年,期間積累了海量健康醫(yī)療數(shù)據(jù)。臨床診療數(shù)據(jù)分散在醫(yī)院各系統(tǒng)(HIS、LlS和PACS)中,各系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)、標(biāo)準(zhǔn)不一,數(shù)據(jù)非結(jié)構(gòu)化、非標(biāo)準(zhǔn)化、難以形成科研所需的研究變量 [ 1 ]。大數(shù)據(jù)在科研管理中有重要的應(yīng)用價(jià)值,在開(kāi)展臨床研究、指導(dǎo)科學(xué)選題、豐富臨床試驗(yàn)研究方法、促進(jìn)成果轉(zhuǎn)化及優(yōu)化科研資源配置等方面有著明確的意義 [ 2 ]。如何高效利用臨床數(shù)據(jù)、挖掘出臨床數(shù)據(jù)的科研價(jià)值是有實(shí)踐意義的重要科學(xué)命題。國(guó)外已較早開(kāi)始了健康醫(yī)療大數(shù)據(jù)研究,并著手了大型專病庫(kù)建設(shè),其特點(diǎn)是收錄病種多、收錄患者多、參與單位多和涉及臨床試驗(yàn)多。例如,美國(guó)心臟病學(xué)學(xué)會(huì)全國(guó)心血管病注冊(cè)研究(ACC-NCDR)自1997年發(fā)起,通過(guò)采集病種門診住院數(shù)據(jù),為臨床實(shí)踐、醫(yī)療支付和政府決策提供依據(jù),到目前形成多個(gè)專病注冊(cè)庫(kù),包括急性冠狀動(dòng)脈綜合征、頸動(dòng)脈血管重建術(shù)及內(nèi)膜切除術(shù)等7種疾病,研究結(jié)果用于全國(guó)疾病臨床指南優(yōu)化、醫(yī)療保險(xiǎn)制度設(shè)計(jì)等 [ 3 ]。隨著云計(jì)算、大數(shù)據(jù)和人工智能等技術(shù)的發(fā)展,我國(guó)智慧醫(yī)療建設(shè)不斷加速,近年來(lái)國(guó)內(nèi)對(duì)健康大數(shù)據(jù)的研究以及應(yīng)用有了長(zhǎng)足的發(fā)展 [ 4 ]。通過(guò)醫(yī)院科研大數(shù)據(jù)平臺(tái)對(duì)數(shù)據(jù)進(jìn)行高效的采集與清洗、治理與標(biāo)準(zhǔn)化,提升數(shù)據(jù)搜索和科研統(tǒng)計(jì)分析能力,有效加快了科研進(jìn)程、推動(dòng)了科研成果產(chǎn)出 [ 5 ]。北京大學(xué)第一醫(yī)院于2020年起著力開(kāi)展科研數(shù)據(jù)平臺(tái)建設(shè),推動(dòng)臨床數(shù)據(jù)向科研數(shù)據(jù)的有效轉(zhuǎn)化,為依托于臨床數(shù)據(jù)的新型臨床科研應(yīng)用開(kāi)展打下堅(jiān)實(shí)基礎(chǔ),也為進(jìn)一步拓展健康醫(yī)療大數(shù)據(jù)平臺(tái)應(yīng)用,推動(dòng)智慧醫(yī)療建設(shè)開(kāi)展積累了經(jīng)驗(yàn)。本研究系統(tǒng)總結(jié)了北京大學(xué)第一醫(yī)院健康醫(yī)療大數(shù)據(jù)平臺(tái)的建設(shè)實(shí)踐,針對(duì)我國(guó)醫(yī)療信息化數(shù)據(jù)分散、非標(biāo)準(zhǔn)化的現(xiàn)狀,提出了創(chuàng)新的解決方案,通過(guò)構(gòu)建一體化的科研數(shù)據(jù)平臺(tái),實(shí)現(xiàn)了多源異構(gòu)臨床數(shù)據(jù)的有效整合與標(biāo)準(zhǔn)化處理。這一舉措在國(guó)內(nèi)同類研究中處于領(lǐng)先地位,顯著提升了大數(shù)據(jù)在科研選題、臨床試驗(yàn)、成果轉(zhuǎn)化及科研資源配置等方面的應(yīng)用價(jià)值,為醫(yī)療機(jī)構(gòu)健康大數(shù)據(jù)平臺(tái)的建設(shè)提供了可借鑒的經(jīng)驗(yàn)。
1.1 數(shù)據(jù)的來(lái)源與遴選醫(yī)院根據(jù)臨床與科研具體需求,決定數(shù)據(jù)抽取順序和抽取范圍,抽取數(shù)據(jù)域應(yīng)包括患者出入轉(zhuǎn)域、醫(yī)囑域、結(jié)算費(fèi)用域、檢查結(jié)果域、醫(yī)囑發(fā)藥域、護(hù)理體征域、病案域、電子病歷域、醫(yī)學(xué)影像域、手術(shù)麻醉域及體檢域等。據(jù)字段按照來(lái)源和復(fù)雜程度,分為L(zhǎng)evel 1、Level 2和Level 3三類 [ 6 ]。L1是無(wú)須進(jìn)行額外的加工處理可直接映射呈現(xiàn)在專病庫(kù)的數(shù)據(jù),如記錄時(shí)間、記錄醫(yī)生等;L2是通過(guò)大段文本中提取關(guān)鍵信息并進(jìn)行結(jié)構(gòu)化和標(biāo)準(zhǔn)化的處理數(shù)據(jù),如現(xiàn)病史中對(duì)癥狀的描述"是否發(fā)熱""是否咳嗽"等,將文本處理成結(jié)構(gòu)化數(shù)據(jù)之后提取出來(lái)。L3是在L1和L2基礎(chǔ)上綜合多種邏輯處理的復(fù)雜字段,如"BMI"是經(jīng)過(guò)"身高"和"體重"運(yùn)算的變量。不同來(lái)源的數(shù)據(jù)被收集、整理和清洗后進(jìn)入數(shù)據(jù)中臺(tái),集成為一個(gè)新的數(shù)據(jù)源,再按域別呈現(xiàn)在科研數(shù)據(jù)平臺(tái),實(shí)現(xiàn)共享。
1.2 數(shù)據(jù)的系統(tǒng)間推送流程( 圖1 )數(shù)據(jù)從醫(yī)院原始業(yè)務(wù)系統(tǒng)要經(jīng)過(guò)兩次躍遷,才能進(jìn)入科研數(shù)據(jù)平臺(tái)。首先,數(shù)據(jù)從醫(yī)院原始業(yè)務(wù)系統(tǒng)進(jìn)入數(shù)據(jù)中臺(tái),數(shù)據(jù)在中臺(tái)內(nèi)被清洗,包括患者主索引清理、亂碼錯(cuò)誤數(shù)據(jù)清理、術(shù)語(yǔ)對(duì)照清理和文本字段清理成結(jié)構(gòu)化數(shù)據(jù)。其次,數(shù)據(jù)從數(shù)據(jù)中臺(tái)進(jìn)入科研數(shù)據(jù)平臺(tái),按照醫(yī)療數(shù)據(jù)域分類呈現(xiàn),或按患者視圖呈現(xiàn),數(shù)據(jù)可以查閱、導(dǎo)出和統(tǒng)計(jì)分析。科研數(shù)據(jù)平臺(tái)的數(shù)據(jù)治理包括數(shù)據(jù)初步清洗、數(shù)據(jù)標(biāo)準(zhǔn)化結(jié)構(gòu)化處理和數(shù)據(jù)的醫(yī)學(xué)邏輯調(diào)優(yōu),是科研數(shù)據(jù)平臺(tái)建設(shè)的核心技術(shù)環(huán)節(jié)。數(shù)據(jù)中臺(tái)是科研數(shù)據(jù)平臺(tái)的底座。數(shù)據(jù)在數(shù)據(jù)中臺(tái)經(jīng)由清洗后具有可用性。對(duì)數(shù)據(jù)的清洗將數(shù)據(jù)量有效收斂,清除冗余或無(wú)效的數(shù)據(jù);同時(shí),將敏感的數(shù)據(jù)如人員基本信息進(jìn)行脫敏處理。患者主索引的清洗保證了數(shù)據(jù)的準(zhǔn)確與全面。以患者身份信息作為主索引,按照數(shù)據(jù)的完整原則收錄全部患者就診信息。單位清洗保證了指標(biāo)單位的一致性,按照國(guó)標(biāo)標(biāo)準(zhǔn)對(duì)各項(xiàng)指標(biāo)計(jì)量單位進(jìn)行統(tǒng)一,或者對(duì)不同來(lái)源數(shù)據(jù)進(jìn)行單位換算。數(shù)值清洗保證了指標(biāo)數(shù)據(jù)的正確性和可用性,將數(shù)值亂碼和不同有效數(shù)字等情況識(shí)別出來(lái)并改正。1.3.2 數(shù)據(jù)的標(biāo)準(zhǔn)化與結(jié)構(gòu)化標(biāo)準(zhǔn)化和結(jié)構(gòu)化需要把同一實(shí)體的不同表達(dá)方式映射到同一實(shí)體名字上,從而統(tǒng)一表達(dá)方式。遵照的標(biāo)準(zhǔn)包括了ICD9、ICD10、SNOMED、MedDRA和WHO-ART等國(guó)際和國(guó)內(nèi)相關(guān)標(biāo)準(zhǔn) [ 7 ]。通過(guò)詞匯標(biāo)準(zhǔn)化處理,為醫(yī)學(xué)臨床大數(shù)據(jù)中復(fù)雜、異構(gòu)和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一提供了標(biāo)準(zhǔn)化的參照。隨后將文本拆解為結(jié)構(gòu)化字段,通過(guò)自然語(yǔ)言處理技術(shù)(Nature Language Processing,NLP),將醫(yī)學(xué)術(shù)語(yǔ)詞庫(kù)自動(dòng)轉(zhuǎn)換成本體知識(shí)庫(kù)的標(biāo)準(zhǔn)術(shù)語(yǔ),本地特有的詞匯概念會(huì)被補(bǔ)充到本體知識(shí)庫(kù),從而形成更加完善的詞匯體系。同時(shí),對(duì)原始數(shù)據(jù)進(jìn)行解析,識(shí)別出文本中的實(shí)體、屬性和關(guān)系,轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù) [ 8 ]。1.3.3 數(shù)據(jù)的醫(yī)學(xué)邏輯調(diào)優(yōu)醫(yī)學(xué)邏輯調(diào)優(yōu)內(nèi)容包括3方面。首先,對(duì)電子病例報(bào)告表單(eCRF)進(jìn)行優(yōu)化,補(bǔ)充完善eCRF表單,讓數(shù)據(jù)的呈現(xiàn)更加合理,使數(shù)據(jù)類型和科研數(shù)據(jù)平臺(tái)的控件類型保持一致,如藥品統(tǒng)一其商品名和通用名。其次,指標(biāo)數(shù)據(jù)來(lái)源的優(yōu)化與判斷,例如判斷患者"是否便秘",應(yīng)在字段在結(jié)果中檢索"便",周圍字段檢索"秘""干"和"費(fèi)力",并且要排除否定語(yǔ)義,此指標(biāo)值方為"是"。第三,采用數(shù)學(xué)計(jì)算產(chǎn)生新的醫(yī)療指標(biāo)維度,給臨床人員提供更多的可用變量。如通過(guò)出入院日期得出住院時(shí)長(zhǎng),通過(guò)體重和身高得出BMI指數(shù)等 [ 9 ]。2.1 臨床數(shù)據(jù)的檢索與導(dǎo)出數(shù)據(jù)檢索可以根據(jù)患者特征指標(biāo)檢索臨床研究目標(biāo)群體,也可根據(jù)臨床試驗(yàn)設(shè)計(jì)條件查找患者指標(biāo)數(shù)據(jù)。在查找患者指標(biāo)時(shí),不但可搜索到某位患者一次就診的多指標(biāo)和多次就診的單指標(biāo),且能通過(guò)檢索關(guān)系詞"and""or"和"not"對(duì)各組患者或病歷分別進(jìn)行交集、并集及排除的處理。經(jīng)檢索得到的數(shù)據(jù)是后續(xù)開(kāi)展科學(xué)研究的基礎(chǔ),科研工作人員可從科研數(shù)據(jù)平臺(tái)中搜索到患者群體后,將其檢驗(yàn)、檢查、藥品和診斷等維度中某些指標(biāo)數(shù)據(jù)導(dǎo)出,導(dǎo)出的格式默認(rèn)是Excel,也可導(dǎo)出與SAS、SPSS、R等導(dǎo)入文件相匹配的文檔格式。在科研數(shù)據(jù)平臺(tái)中對(duì)指標(biāo)數(shù)據(jù)的處理分為數(shù)據(jù)清洗、統(tǒng)計(jì)分析和預(yù)測(cè)模型。臨床科研人員在數(shù)據(jù)清洗功能模塊,可填充指標(biāo)、組合數(shù)據(jù)和將連續(xù)性數(shù)據(jù)分組等。清洗方法包括變量分級(jí)、類別轉(zhuǎn)變量、記錄合并、缺失值填補(bǔ)、剔除文本、記錄替換、變量拆分和變量計(jì)算等。科研工作人員可以科研數(shù)據(jù)平臺(tái)上對(duì)指標(biāo)進(jìn)行描述性分析和差異性分析。利用描述性分析能看到連續(xù)性指標(biāo)數(shù)據(jù)的最大值、最小值、平均值、標(biāo)準(zhǔn)差和四分位數(shù)等,還能通過(guò)柱狀圖、散點(diǎn)圖查看數(shù)據(jù)特征。預(yù)測(cè)模型包括有線性回歸、Logistic和生存分析模型,以及隨機(jī)森林和支持向量機(jī)等機(jī)器學(xué)習(xí)算法,把指標(biāo)導(dǎo)入相應(yīng)模塊可用來(lái)開(kāi)展相應(yīng)的建模分析。北京大學(xué)第一醫(yī)院采用系統(tǒng)化平臺(tái)建設(shè)模式構(gòu)建健康醫(yī)療大數(shù)據(jù)平臺(tái),該模式以數(shù)據(jù)為中心,涵蓋數(shù)據(jù)的全生命周期管理,從數(shù)據(jù)源頭的多系統(tǒng)抽取與標(biāo)準(zhǔn)化,到數(shù)據(jù)中臺(tái)的高效清洗與治理,再到科研數(shù)據(jù)平臺(tái)的智能化分析與建模,形成一套閉環(huán)流程。該平臺(tái)首先實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的統(tǒng)一抽取與標(biāo)準(zhǔn)化處理,通過(guò)數(shù)據(jù)中臺(tái)進(jìn)行精細(xì)化的清洗與治理,確保數(shù)據(jù)的準(zhǔn)確性和可用性。隨后,利用智能化工具進(jìn)行數(shù)據(jù)的分析與建模,為科研和臨床提供有力支持。此外,平臺(tái)還注重跨學(xué)科團(tuán)隊(duì)的協(xié)同合作,引入臨床醫(yī)學(xué)、計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)等多領(lǐng)域?qū)<?,確保平臺(tái)的設(shè)計(jì)、建設(shè)與運(yùn)行能夠緊密貼合科研與臨床的實(shí)際需求。這一模式不僅提升了數(shù)據(jù)利用效率,更為智慧醫(yī)療的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。3.科研數(shù)據(jù)平臺(tái)建設(shè)的挑戰(zhàn)、未來(lái)展望與討論3.1 科研數(shù)據(jù)平臺(tái)建設(shè)的風(fēng)險(xiǎn)與挑戰(zhàn)北京大學(xué)第一醫(yī)院自建立健康醫(yī)療大數(shù)據(jù)平臺(tái)以來(lái),也面臨諸多挑戰(zhàn)。第一,數(shù)據(jù)標(biāo)準(zhǔn)化與互操作性。由于臨床數(shù)據(jù)分散在醫(yī)院各個(gè)系統(tǒng)中(如HIS、LlS和PACS),各系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和標(biāo)準(zhǔn)存在差異,導(dǎo)致數(shù)據(jù)非結(jié)構(gòu)化、非標(biāo)準(zhǔn)化,難以形成符合科研需求的研究變量。解決這個(gè)問(wèn)題需要建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范,并采用自然語(yǔ)言處理技術(shù)(NLP)來(lái)實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化和結(jié)構(gòu)化。第二,數(shù)據(jù)安全與隱私保護(hù)。在收集、存儲(chǔ)和使用健康醫(yī)療數(shù)據(jù)時(shí),如何平衡數(shù)據(jù)利用與個(gè)人隱私保護(hù)之間的矛盾成為一大難題。必須嚴(yán)格遵守相關(guān)法律法規(guī),采取加密措施和技術(shù)手段來(lái)保護(hù)數(shù)據(jù)的安全性和患者隱私,同時(shí),參與數(shù)據(jù)治理工作的相關(guān)方均須簽署保密協(xié)議。第三,數(shù)據(jù)質(zhì)量和完整性。由于數(shù)據(jù)來(lái)源廣泛且多樣,數(shù)據(jù)的質(zhì)量控制和完整性驗(yàn)證變得復(fù)雜。需通過(guò)數(shù)據(jù)治理流程,如初步清洗、標(biāo)準(zhǔn)化結(jié)構(gòu)化處理及醫(yī)學(xué)邏輯調(diào)優(yōu)等步驟來(lái)確保數(shù)據(jù)質(zhì)量。最后,技術(shù)更新與維護(hù)。隨著技術(shù)的發(fā)展,平臺(tái)需不斷更新迭代以適應(yīng)新技術(shù)的要求。這不僅涉及硬件設(shè)備的升級(jí),還包括軟件系統(tǒng)的維護(hù)以及新技術(shù)的引入,比如大語(yǔ)言模型的應(yīng)用等。3.2 持續(xù)擴(kuò)大數(shù)據(jù)范圍,推動(dòng)將臨床數(shù)據(jù)轉(zhuǎn)變?yōu)榭蒲袛?shù)據(jù)臨床數(shù)據(jù)和科研數(shù)據(jù)差異較大,前者以病人康復(fù)為目的,是診療過(guò)程的有效記錄;后者以學(xué)術(shù)研究為目的,是研究開(kāi)展的數(shù)據(jù)依據(jù)。通過(guò)科研數(shù)據(jù)平臺(tái)建設(shè)實(shí)現(xiàn)了臨床數(shù)據(jù)向科研數(shù)據(jù)的有效轉(zhuǎn)化,為科研工作者提供了統(tǒng)一完整的數(shù)據(jù)視圖。隨著醫(yī)學(xué)研究的開(kāi)展,所涉及的數(shù)據(jù)來(lái)源也越來(lái)越多,不僅局限于醫(yī)院各系統(tǒng)(HIS、LlS和PACS)中,同樣也包括了多個(gè)分院區(qū)診療與科研數(shù)據(jù)數(shù)據(jù)、專病隊(duì)列隨訪數(shù)據(jù)和基因與組學(xué)信息等其他數(shù)據(jù)。在建設(shè)過(guò)程中,應(yīng)不斷拓寬數(shù)據(jù)范圍,將更多元的數(shù)據(jù)納入科研數(shù)據(jù)平臺(tái)采集范圍。通過(guò)有效的治理后形成可以利用的科研數(shù)據(jù),助力高水平科學(xué)研究的開(kāi)展 [ 10 ]。3.3 提升臨床專家參與度,進(jìn)行項(xiàng)目的前瞻性設(shè)計(jì)和數(shù)據(jù)的前瞻性采集醫(yī)療機(jī)構(gòu)在進(jìn)行科研數(shù)據(jù)平臺(tái)建設(shè)時(shí),應(yīng)充分考慮并提升臨床專家的參與度。這不僅有助于確保數(shù)據(jù)的實(shí)際應(yīng)用價(jià)值,更能使數(shù)據(jù)采集更具前瞻性。臨床專家作為醫(yī)療科研工作的核心,通過(guò)項(xiàng)目的前瞻性設(shè)計(jì),能夠使數(shù)據(jù)平臺(tái)的建設(shè)更加貼近醫(yī)療實(shí)踐,更好地服務(wù)于既定科研目標(biāo)。同時(shí),通過(guò)與臨床專家緊密合作,能夠更準(zhǔn)確地把握科研數(shù)據(jù)的需求和變化,從而進(jìn)行有針對(duì)性的數(shù)據(jù)采集和整理。在平臺(tái)建設(shè)中,應(yīng)該同步進(jìn)行跨學(xué)科的團(tuán)隊(duì)構(gòu)建,包括臨床醫(yī)學(xué)、計(jì)算機(jī)科學(xué)和統(tǒng)計(jì)學(xué)等領(lǐng)域的專家,共同參與平臺(tái)設(shè)計(jì)、建設(shè)與運(yùn)行相關(guān)工作 [ 11 ]。3.4 以集成平臺(tái)為基礎(chǔ),進(jìn)行數(shù)據(jù)的自動(dòng)推送與調(diào)用在科研數(shù)據(jù)平臺(tái)的構(gòu)成中,數(shù)據(jù)中臺(tái)的數(shù)據(jù)是多個(gè)異構(gòu)數(shù)據(jù)源有效集成而來(lái),數(shù)據(jù)平臺(tái)將數(shù)據(jù)從異構(gòu)數(shù)據(jù)源流向統(tǒng)一的目標(biāo)數(shù)據(jù)庫(kù)。如果以端口等形式將數(shù)據(jù)固定到集成平臺(tái),不但顯著減少數(shù)據(jù)整合的工作量和工作時(shí)間,后期在技術(shù)上更快實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)轉(zhuǎn)存,提升數(shù)據(jù)獲取能力 [ 12 ]。數(shù)據(jù)的推送頻次決定了科研人員是否能使用最新數(shù)據(jù)開(kāi)展科學(xué)研究,可以以NLP技術(shù)為基礎(chǔ),進(jìn)行半自動(dòng)數(shù)據(jù)清洗入庫(kù),盡可能減少數(shù)據(jù)清洗和治理所需要時(shí)間,從而使數(shù)據(jù)平臺(tái)的數(shù)據(jù)更新周期滿足應(yīng)急科研的需求 [ 13 ]。3.5 以大語(yǔ)言模型的應(yīng)用為方向,開(kāi)展技術(shù)探索與儲(chǔ)備Generative Pre-Trained Transformer(GPT)是一種基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù),可用于分析大量的醫(yī)療數(shù)據(jù),對(duì)專病數(shù)據(jù)庫(kù)的建設(shè)具有顛覆式的影響 [ 14 ]。GPT可根據(jù)醫(yī)療數(shù)據(jù)中的文本信息,自動(dòng)對(duì)數(shù)據(jù)進(jìn)行分類和標(biāo)記,識(shí)別和糾正數(shù)據(jù)中的錯(cuò)誤,如格式錯(cuò)誤、缺失值和異常值等,從而提高數(shù)據(jù)的質(zhì)量和可用性。在信息抽取上,ChatGPT可以將大段臨床文本進(jìn)行結(jié)構(gòu)化,從而提取出關(guān)鍵信息。這種能力使得ChatGPT在處理臨床數(shù)據(jù)時(shí)具有很大的潛力。例如,它可自動(dòng)抽取病例中的關(guān)鍵信息,如病人的基本信息、病史和治療方案等,并將其整理成結(jié)構(gòu)化的數(shù)據(jù),方便后續(xù)的數(shù)據(jù)分析和科研工作 [ 15 ]。同時(shí),也可通過(guò)優(yōu)化查詢算法,提高查詢效率,使醫(yī)生和研究人員能更快地獲取所需的醫(yī)療數(shù)據(jù)。在進(jìn)行數(shù)據(jù)平臺(tái)建設(shè)時(shí),應(yīng)以大語(yǔ)言模型的應(yīng)用方向進(jìn)行積極探索與技術(shù)儲(chǔ)備。3.6 以健康醫(yī)療大數(shù)據(jù)為基礎(chǔ),推動(dòng)科研數(shù)據(jù)平臺(tái)發(fā)展北京大學(xué)第一醫(yī)院健康醫(yī)療大數(shù)據(jù)平臺(tái)的建設(shè)實(shí)踐,為國(guó)內(nèi)外醫(yī)療機(jī)構(gòu)在數(shù)據(jù)整合、治理與應(yīng)用方面提供了寶貴的借鑒。首先,本研究通過(guò)系統(tǒng)化的數(shù)據(jù)收集與治理流程,實(shí)現(xiàn)了臨床數(shù)據(jù)向科研數(shù)據(jù)的高效轉(zhuǎn)化,為臨床科研提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。這一做法有助于提升醫(yī)療機(jī)構(gòu)的科研效率與質(zhì)量,推動(dòng)科研成果的產(chǎn)出。其次,平臺(tái)的建設(shè)過(guò)程中強(qiáng)調(diào)了臨床專家的參與度,確保了數(shù)據(jù)的實(shí)際應(yīng)用價(jià)值與前瞻性。醫(yī)療機(jī)構(gòu)在構(gòu)建類似平臺(tái)時(shí),可借鑒此模式,通過(guò)跨學(xué)科團(tuán)隊(duì)的構(gòu)建與緊密合作,確保數(shù)據(jù)平臺(tái)的建設(shè)與醫(yī)療實(shí)踐緊密結(jié)合,更好地服務(wù)于科研需求。此外,平臺(tái)采用了先進(jìn)的集成平臺(tái)與自動(dòng)化數(shù)據(jù)推送技術(shù),顯著提升了數(shù)據(jù)整合與獲取的能力,為醫(yī)療機(jī)構(gòu)在數(shù)據(jù)更新與應(yīng)急科研需求方面提供了有力支持。同時(shí),大語(yǔ)言模型等前沿技術(shù)的探索與應(yīng)用,也為未來(lái)智慧醫(yī)療的發(fā)展奠定了技術(shù)基礎(chǔ)。綜上所述,北京大學(xué)第一醫(yī)院健康醫(yī)療大數(shù)據(jù)平臺(tái)的建設(shè)實(shí)踐,不僅在數(shù)據(jù)整合、治理與應(yīng)用方面取得了顯著成效,更為醫(yī)療機(jī)構(gòu)提供了寶貴的建設(shè)思路與參考路徑,這些實(shí)踐經(jīng)驗(yàn)對(duì)推動(dòng)智慧醫(yī)療建設(shè)、提升醫(yī)療服務(wù)水平具有重要的借鑒意義。
特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時(shí)并不代表贊成其觀點(diǎn)或證實(shí)其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請(qǐng)聯(lián)系我們刪除。
凡來(lái)源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。