久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 
當前位置:首頁 > 資訊 > 觀點

北京大學第一醫(yī)院健康醫(yī)療大數(shù)據(jù)平臺的建設實踐與思考

發(fā)布時間:2025-03-11 來源:醫(yī)學科研管理空間 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看


中華醫(yī)學科研管理雜志2024年·37卷·06期 楊照 周煦然 樊笑晗 李貞 馮孟賢 劉久秀 鄭茜子 楊超 向宇

摘要

目的   在分析和總結北京大學第一醫(yī)院科研數(shù)據(jù)平臺建設相關經(jīng)驗的基礎上,提出醫(yī)療機構健康醫(yī)療大數(shù)據(jù)平臺建設的有效路徑,為進一步拓展健康醫(yī)療大數(shù)據(jù)平臺應用,推動智慧醫(yī)療建設提供借鑒。

方法   通過系統(tǒng)化流程收集醫(yī)院多域數(shù)據(jù),分類處理并清洗后,采用國際醫(yī)學標準與NLP技術實現(xiàn)數(shù)據(jù)標準化與結構化。同時,優(yōu)化eCRF表單、數(shù)據(jù)源判斷及數(shù)學計算,確??蒲袛?shù)據(jù)平臺的數(shù)據(jù)質(zhì)量與應用價值。

結果  北京大學第一醫(yī)院通過開展科研數(shù)據(jù)平臺建設,初步實現(xiàn)了從臨床數(shù)據(jù)向科研數(shù)據(jù)的有效轉(zhuǎn)化,實現(xiàn)了數(shù)據(jù)的有效采集、系統(tǒng)推送與整合、數(shù)據(jù)清洗與治理,并開展了健康醫(yī)療大數(shù)據(jù)研究。

討論   后續(xù)應持續(xù)擴大數(shù)據(jù)范圍,推動將臨床數(shù)據(jù)轉(zhuǎn)變?yōu)榭蒲袛?shù)據(jù);提升臨床專家參與度,進行項目的前瞻性設計和數(shù)據(jù)的前瞻性采集;以集成平臺為基礎,進行數(shù)據(jù)的自動推送與調(diào)用;以大語言模型的應用為方向,開展技術探索與儲備。


我國的醫(yī)療信息化發(fā)展歷經(jīng)二十余年,期間積累了海量健康醫(yī)療數(shù)據(jù)。臨床診療數(shù)據(jù)分散在醫(yī)院各系統(tǒng)(HIS、LlS和PACS)中,各系統(tǒng)的數(shù)據(jù)結構、標準不一,數(shù)據(jù)非結構化、非標準化、難以形成科研所需的研究變量 [ 1 ]。大數(shù)據(jù)在科研管理中有重要的應用價值,在開展臨床研究、指導科學選題、豐富臨床試驗研究方法、促進成果轉(zhuǎn)化及優(yōu)化科研資源配置等方面有著明確的意義 [ 2 ]。如何高效利用臨床數(shù)據(jù)、挖掘出臨床數(shù)據(jù)的科研價值是有實踐意義的重要科學命題。
國外已較早開始了健康醫(yī)療大數(shù)據(jù)研究,并著手了大型專病庫建設,其特點是收錄病種多、收錄患者多、參與單位多和涉及臨床試驗多。例如,美國心臟病學學會全國心血管病注冊研究(ACC-NCDR)自1997年發(fā)起,通過采集病種門診住院數(shù)據(jù),為臨床實踐、醫(yī)療支付和政府決策提供依據(jù),到目前形成多個專病注冊庫,包括急性冠狀動脈綜合征、頸動脈血管重建術及內(nèi)膜切除術等7種疾病,研究結果用于全國疾病臨床指南優(yōu)化、醫(yī)療保險制度設計等 [ 3 ]。隨著云計算、大數(shù)據(jù)和人工智能等技術的發(fā)展,我國智慧醫(yī)療建設不斷加速,近年來國內(nèi)對健康大數(shù)據(jù)的研究以及應用有了長足的發(fā)展 [ 4 ]。通過醫(yī)院科研大數(shù)據(jù)平臺對數(shù)據(jù)進行高效的采集與清洗、治理與標準化,提升數(shù)據(jù)搜索和科研統(tǒng)計分析能力,有效加快了科研進程、推動了科研成果產(chǎn)出 [ 5 ]。
北京大學第一醫(yī)院于2020年起著力開展科研數(shù)據(jù)平臺建設,推動臨床數(shù)據(jù)向科研數(shù)據(jù)的有效轉(zhuǎn)化,為依托于臨床數(shù)據(jù)的新型臨床科研應用開展打下堅實基礎,也為進一步拓展健康醫(yī)療大數(shù)據(jù)平臺應用,推動智慧醫(yī)療建設開展積累了經(jīng)驗。本研究系統(tǒng)總結了北京大學第一醫(yī)院健康醫(yī)療大數(shù)據(jù)平臺的建設實踐,針對我國醫(yī)療信息化數(shù)據(jù)分散、非標準化的現(xiàn)狀,提出了創(chuàng)新的解決方案,通過構建一體化的科研數(shù)據(jù)平臺,實現(xiàn)了多源異構臨床數(shù)據(jù)的有效整合與標準化處理。這一舉措在國內(nèi)同類研究中處于領先地位,顯著提升了大數(shù)據(jù)在科研選題、臨床試驗、成果轉(zhuǎn)化及科研資源配置等方面的應用價值,為醫(yī)療機構健康大數(shù)據(jù)平臺的建設提供了可借鑒的經(jīng)驗。



1.科研數(shù)據(jù)收集與治理


1.1 數(shù)據(jù)的來源與遴選
醫(yī)院根據(jù)臨床與科研具體需求,決定數(shù)據(jù)抽取順序和抽取范圍,抽取數(shù)據(jù)域應包括患者出入轉(zhuǎn)域、醫(yī)囑域、結算費用域、檢查結果域、醫(yī)囑發(fā)藥域、護理體征域、病案域、電子病歷域、醫(yī)學影像域、手術麻醉域及體檢域等。

據(jù)字段按照來源和復雜程度,分為Level 1、Level 2和Level 3三類 [ 6 ]。L1是無須進行額外的加工處理可直接映射呈現(xiàn)在專病庫的數(shù)據(jù),如記錄時間、記錄醫(yī)生等;L2是通過大段文本中提取關鍵信息并進行結構化和標準化的處理數(shù)據(jù),如現(xiàn)病史中對癥狀的描述"是否發(fā)熱""是否咳嗽"等,將文本處理成結構化數(shù)據(jù)之后提取出來。L3是在L1和L2基礎上綜合多種邏輯處理的復雜字段,如"BMI"是經(jīng)過"身高"和"體重"運算的變量。不同來源的數(shù)據(jù)被收集、整理和清洗后進入數(shù)據(jù)中臺,集成為一個新的數(shù)據(jù)源,再按域別呈現(xiàn)在科研數(shù)據(jù)平臺,實現(xiàn)共享。


1.2 數(shù)據(jù)的系統(tǒng)間推送流程( 圖1 )
數(shù)據(jù)從醫(yī)院原始業(yè)務系統(tǒng)要經(jīng)過兩次躍遷,才能進入科研數(shù)據(jù)平臺。首先,數(shù)據(jù)從醫(yī)院原始業(yè)務系統(tǒng)進入數(shù)據(jù)中臺,數(shù)據(jù)在中臺內(nèi)被清洗,包括患者主索引清理、亂碼錯誤數(shù)據(jù)清理、術語對照清理和文本字段清理成結構化數(shù)據(jù)。其次,數(shù)據(jù)從數(shù)據(jù)中臺進入科研數(shù)據(jù)平臺,按照醫(yī)療數(shù)據(jù)域分類呈現(xiàn),或按患者視圖呈現(xiàn),數(shù)據(jù)可以查閱、導出和統(tǒng)計分析。
微信圖片_20250311153640.png
1.3 數(shù)據(jù)的治理
科研數(shù)據(jù)平臺的數(shù)據(jù)治理包括數(shù)據(jù)初步清洗、數(shù)據(jù)標準化結構化處理和數(shù)據(jù)的醫(yī)學邏輯調(diào)優(yōu),是科研數(shù)據(jù)平臺建設的核心技術環(huán)節(jié)。
1.3.1 數(shù)據(jù)初步清洗
數(shù)據(jù)中臺是科研數(shù)據(jù)平臺的底座。數(shù)據(jù)在數(shù)據(jù)中臺經(jīng)由清洗后具有可用性。對數(shù)據(jù)的清洗將數(shù)據(jù)量有效收斂,清除冗余或無效的數(shù)據(jù);同時,將敏感的數(shù)據(jù)如人員基本信息進行脫敏處理。患者主索引的清洗保證了數(shù)據(jù)的準確與全面。以患者身份信息作為主索引,按照數(shù)據(jù)的完整原則收錄全部患者就診信息。單位清洗保證了指標單位的一致性,按照國標標準對各項指標計量單位進行統(tǒng)一,或者對不同來源數(shù)據(jù)進行單位換算。數(shù)值清洗保證了指標數(shù)據(jù)的正確性和可用性,將數(shù)值亂碼和不同有效數(shù)字等情況識別出來并改正。
1.3.2 數(shù)據(jù)的標準化與結構化
標準化和結構化需要把同一實體的不同表達方式映射到同一實體名字上,從而統(tǒng)一表達方式。遵照的標準包括了ICD9、ICD10、SNOMED、MedDRA和WHO-ART等國際和國內(nèi)相關標準 [ 7 ]。通過詞匯標準化處理,為醫(yī)學臨床大數(shù)據(jù)中復雜、異構和非結構化的數(shù)據(jù)進行統(tǒng)一提供了標準化的參照。隨后將文本拆解為結構化字段,通過自然語言處理技術(Nature Language Processing,NLP),將醫(yī)學術語詞庫自動轉(zhuǎn)換成本體知識庫的標準術語,本地特有的詞匯概念會被補充到本體知識庫,從而形成更加完善的詞匯體系。同時,對原始數(shù)據(jù)進行解析,識別出文本中的實體、屬性和關系,轉(zhuǎn)換成結構化數(shù)據(jù) [ 8 ]。
1.3.3 數(shù)據(jù)的醫(yī)學邏輯調(diào)優(yōu)
醫(yī)學邏輯調(diào)優(yōu)內(nèi)容包括3方面。首先,對電子病例報告表單(eCRF)進行優(yōu)化,補充完善eCRF表單,讓數(shù)據(jù)的呈現(xiàn)更加合理,使數(shù)據(jù)類型和科研數(shù)據(jù)平臺的控件類型保持一致,如藥品統(tǒng)一其商品名和通用名。其次,指標數(shù)據(jù)來源的優(yōu)化與判斷,例如判斷患者"是否便秘",應在字段在結果中檢索"便",周圍字段檢索"秘""干"和"費力",并且要排除否定語義,此指標值方為"是"。第三,采用數(shù)學計算產(chǎn)生新的醫(yī)療指標維度,給臨床人員提供更多的可用變量。如通過出入院日期得出住院時長,通過體重和身高得出BMI指數(shù)等 [ 9 ]
2.數(shù)據(jù)的研究應用



2.1 臨床數(shù)據(jù)的檢索與導出
數(shù)據(jù)檢索可以根據(jù)患者特征指標檢索臨床研究目標群體,也可根據(jù)臨床試驗設計條件查找患者指標數(shù)據(jù)。在查找患者指標時,不但可搜索到某位患者一次就診的多指標和多次就診的單指標,且能通過檢索關系詞"and""or"和"not"對各組患者或病歷分別進行交集、并集及排除的處理。經(jīng)檢索得到的數(shù)據(jù)是后續(xù)開展科學研究的基礎,科研工作人員可從科研數(shù)據(jù)平臺中搜索到患者群體后,將其檢驗、檢查、藥品和診斷等維度中某些指標數(shù)據(jù)導出,導出的格式默認是Excel,也可導出與SAS、SPSS、R等導入文件相匹配的文檔格式。
2.2 數(shù)據(jù)分析與建模
在科研數(shù)據(jù)平臺中對指標數(shù)據(jù)的處理分為數(shù)據(jù)清洗、統(tǒng)計分析和預測模型。臨床科研人員在數(shù)據(jù)清洗功能模塊,可填充指標、組合數(shù)據(jù)和將連續(xù)性數(shù)據(jù)分組等。清洗方法包括變量分級、類別轉(zhuǎn)變量、記錄合并、缺失值填補、剔除文本、記錄替換、變量拆分和變量計算等??蒲泄ぷ魅藛T可以科研數(shù)據(jù)平臺上對指標進行描述性分析和差異性分析。利用描述性分析能看到連續(xù)性指標數(shù)據(jù)的最大值、最小值、平均值、標準差和四分位數(shù)等,還能通過柱狀圖、散點圖查看數(shù)據(jù)特征。預測模型包括有線性回歸、Logistic和生存分析模型,以及隨機森林和支持向量機等機器學習算法,把指標導入相應模塊可用來開展相應的建模分析。
2.3 平臺建設模式
北京大學第一醫(yī)院采用系統(tǒng)化平臺建設模式構建健康醫(yī)療大數(shù)據(jù)平臺,該模式以數(shù)據(jù)為中心,涵蓋數(shù)據(jù)的全生命周期管理,從數(shù)據(jù)源頭的多系統(tǒng)抽取與標準化,到數(shù)據(jù)中臺的高效清洗與治理,再到科研數(shù)據(jù)平臺的智能化分析與建模,形成一套閉環(huán)流程。該平臺首先實現(xiàn)多源異構數(shù)據(jù)的統(tǒng)一抽取與標準化處理,通過數(shù)據(jù)中臺進行精細化的清洗與治理,確保數(shù)據(jù)的準確性和可用性。隨后,利用智能化工具進行數(shù)據(jù)的分析與建模,為科研和臨床提供有力支持。此外,平臺還注重跨學科團隊的協(xié)同合作,引入臨床醫(yī)學、計算機科學和統(tǒng)計學等多領域?qū)<?,確保平臺的設計、建設與運行能夠緊密貼合科研與臨床的實際需求。這一模式不僅提升了數(shù)據(jù)利用效率,更為智慧醫(yī)療的發(fā)展奠定了堅實的基礎。
3.科研數(shù)據(jù)平臺建設的挑戰(zhàn)、未來展望與討論

3.1 科研數(shù)據(jù)平臺建設的風險與挑戰(zhàn)
北京大學第一醫(yī)院自建立健康醫(yī)療大數(shù)據(jù)平臺以來,也面臨諸多挑戰(zhàn)。第一,數(shù)據(jù)標準化與互操作性。由于臨床數(shù)據(jù)分散在醫(yī)院各個系統(tǒng)中(如HIS、LlS和PACS),各系統(tǒng)的數(shù)據(jù)結構和標準存在差異,導致數(shù)據(jù)非結構化、非標準化,難以形成符合科研需求的研究變量。解決這個問題需要建立統(tǒng)一的數(shù)據(jù)標準和規(guī)范,并采用自然語言處理技術(NLP)來實現(xiàn)數(shù)據(jù)的標準化和結構化。第二,數(shù)據(jù)安全與隱私保護。在收集、存儲和使用健康醫(yī)療數(shù)據(jù)時,如何平衡數(shù)據(jù)利用與個人隱私保護之間的矛盾成為一大難題。必須嚴格遵守相關法律法規(guī),采取加密措施和技術手段來保護數(shù)據(jù)的安全性和患者隱私,同時,參與數(shù)據(jù)治理工作的相關方均須簽署保密協(xié)議。第三,數(shù)據(jù)質(zhì)量和完整性。由于數(shù)據(jù)來源廣泛且多樣,數(shù)據(jù)的質(zhì)量控制和完整性驗證變得復雜。需通過數(shù)據(jù)治理流程,如初步清洗、標準化結構化處理及醫(yī)學邏輯調(diào)優(yōu)等步驟來確保數(shù)據(jù)質(zhì)量。最后,技術更新與維護。隨著技術的發(fā)展,平臺需不斷更新迭代以適應新技術的要求。這不僅涉及硬件設備的升級,還包括軟件系統(tǒng)的維護以及新技術的引入,比如大語言模型的應用等。
3.2 持續(xù)擴大數(shù)據(jù)范圍,推動將臨床數(shù)據(jù)轉(zhuǎn)變?yōu)榭蒲袛?shù)據(jù)
臨床數(shù)據(jù)和科研數(shù)據(jù)差異較大,前者以病人康復為目的,是診療過程的有效記錄;后者以學術研究為目的,是研究開展的數(shù)據(jù)依據(jù)。通過科研數(shù)據(jù)平臺建設實現(xiàn)了臨床數(shù)據(jù)向科研數(shù)據(jù)的有效轉(zhuǎn)化,為科研工作者提供了統(tǒng)一完整的數(shù)據(jù)視圖。隨著醫(yī)學研究的開展,所涉及的數(shù)據(jù)來源也越來越多,不僅局限于醫(yī)院各系統(tǒng)(HIS、LlS和PACS)中,同樣也包括了多個分院區(qū)診療與科研數(shù)據(jù)數(shù)據(jù)、專病隊列隨訪數(shù)據(jù)和基因與組學信息等其他數(shù)據(jù)。在建設過程中,應不斷拓寬數(shù)據(jù)范圍,將更多元的數(shù)據(jù)納入科研數(shù)據(jù)平臺采集范圍。通過有效的治理后形成可以利用的科研數(shù)據(jù),助力高水平科學研究的開展 [ 10 ]。
3.3 提升臨床專家參與度,進行項目的前瞻性設計和數(shù)據(jù)的前瞻性采集
醫(yī)療機構在進行科研數(shù)據(jù)平臺建設時,應充分考慮并提升臨床專家的參與度。這不僅有助于確保數(shù)據(jù)的實際應用價值,更能使數(shù)據(jù)采集更具前瞻性。臨床專家作為醫(yī)療科研工作的核心,通過項目的前瞻性設計,能夠使數(shù)據(jù)平臺的建設更加貼近醫(yī)療實踐,更好地服務于既定科研目標。同時,通過與臨床專家緊密合作,能夠更準確地把握科研數(shù)據(jù)的需求和變化,從而進行有針對性的數(shù)據(jù)采集和整理。在平臺建設中,應該同步進行跨學科的團隊構建,包括臨床醫(yī)學、計算機科學和統(tǒng)計學等領域的專家,共同參與平臺設計、建設與運行相關工作 [ 11 ]。
3.4 以集成平臺為基礎,進行數(shù)據(jù)的自動推送與調(diào)用
在科研數(shù)據(jù)平臺的構成中,數(shù)據(jù)中臺的數(shù)據(jù)是多個異構數(shù)據(jù)源有效集成而來,數(shù)據(jù)平臺將數(shù)據(jù)從異構數(shù)據(jù)源流向統(tǒng)一的目標數(shù)據(jù)庫。如果以端口等形式將數(shù)據(jù)固定到集成平臺,不但顯著減少數(shù)據(jù)整合的工作量和工作時間,后期在技術上更快實現(xiàn)數(shù)據(jù)的自動轉(zhuǎn)存,提升數(shù)據(jù)獲取能力 [ 12 ]。數(shù)據(jù)的推送頻次決定了科研人員是否能使用最新數(shù)據(jù)開展科學研究,可以以NLP技術為基礎,進行半自動數(shù)據(jù)清洗入庫,盡可能減少數(shù)據(jù)清洗和治理所需要時間,從而使數(shù)據(jù)平臺的數(shù)據(jù)更新周期滿足應急科研的需求 [ 13 ]
3.5 以大語言模型的應用為方向,開展技術探索與儲備
Generative Pre-Trained Transformer(GPT)是一種基于深度學習的自然語言處理技術,可用于分析大量的醫(yī)療數(shù)據(jù),對專病數(shù)據(jù)庫的建設具有顛覆式的影響 [ 14 ]。GPT可根據(jù)醫(yī)療數(shù)據(jù)中的文本信息,自動對數(shù)據(jù)進行分類和標記,識別和糾正數(shù)據(jù)中的錯誤,如格式錯誤、缺失值和異常值等,從而提高數(shù)據(jù)的質(zhì)量和可用性。在信息抽取上,ChatGPT可以將大段臨床文本進行結構化,從而提取出關鍵信息。這種能力使得ChatGPT在處理臨床數(shù)據(jù)時具有很大的潛力。例如,它可自動抽取病例中的關鍵信息,如病人的基本信息、病史和治療方案等,并將其整理成結構化的數(shù)據(jù),方便后續(xù)的數(shù)據(jù)分析和科研工作 [ 15 ]。同時,也可通過優(yōu)化查詢算法,提高查詢效率,使醫(yī)生和研究人員能更快地獲取所需的醫(yī)療數(shù)據(jù)。在進行數(shù)據(jù)平臺建設時,應以大語言模型的應用方向進行積極探索與技術儲備。
3.6 以健康醫(yī)療大數(shù)據(jù)為基礎,推動科研數(shù)據(jù)平臺發(fā)展
北京大學第一醫(yī)院健康醫(yī)療大數(shù)據(jù)平臺的建設實踐,為國內(nèi)外醫(yī)療機構在數(shù)據(jù)整合、治理與應用方面提供了寶貴的借鑒。首先,本研究通過系統(tǒng)化的數(shù)據(jù)收集與治理流程,實現(xiàn)了臨床數(shù)據(jù)向科研數(shù)據(jù)的高效轉(zhuǎn)化,為臨床科研提供了堅實的數(shù)據(jù)基礎。這一做法有助于提升醫(yī)療機構的科研效率與質(zhì)量,推動科研成果的產(chǎn)出。其次,平臺的建設過程中強調(diào)了臨床專家的參與度,確保了數(shù)據(jù)的實際應用價值與前瞻性。醫(yī)療機構在構建類似平臺時,可借鑒此模式,通過跨學科團隊的構建與緊密合作,確保數(shù)據(jù)平臺的建設與醫(yī)療實踐緊密結合,更好地服務于科研需求。此外,平臺采用了先進的集成平臺與自動化數(shù)據(jù)推送技術,顯著提升了數(shù)據(jù)整合與獲取的能力,為醫(yī)療機構在數(shù)據(jù)更新與應急科研需求方面提供了有力支持。同時,大語言模型等前沿技術的探索與應用,也為未來智慧醫(yī)療的發(fā)展奠定了技術基礎。
綜上所述,北京大學第一醫(yī)院健康醫(yī)療大數(shù)據(jù)平臺的建設實踐,不僅在數(shù)據(jù)整合、治理與應用方面取得了顯著成效,更為醫(yī)療機構提供了寶貴的建設思路與參考路徑,這些實踐經(jīng)驗對推動智慧醫(yī)療建設、提升醫(yī)療服務水平具有重要的借鑒意義。


特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權歸原作者所有,若有侵權,請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權。

智慧醫(yī)療網(wǎng) ? 2022 版權所有   ICP備案號:滬ICP備17004559號-5