久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 

醫(yī)療大數(shù)據(jù)的臨床文本處理與知識發(fā)現(xiàn)方法有哪些?

發(fā)布時間:2024-04-30 來源:森億AI醫(yī)療 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

研究基于醫(yī)療大數(shù)據(jù)的數(shù)據(jù)處理與知識發(fā)現(xiàn)方法,提升對海量臨床文本的處理與利用能力。以臨床文本數(shù)據(jù)為主要研究對象,圍繞數(shù)據(jù)準備、文本挖掘、評估反饋的全流程,從知識發(fā)現(xiàn)生命周期、文本處理流程以及關鍵技術等方面,研究基于醫(yī)療大數(shù)據(jù)的數(shù)據(jù)處理與知識發(fā)現(xiàn)方法。基于醫(yī)療大數(shù)據(jù)的臨床知識發(fā)現(xiàn)具有數(shù)據(jù)處理、文本挖掘和評價反饋的生命周期,語義標注是臨床文本知識關聯(lián)化的重要環(huán)節(jié)。基于醫(yī)療大數(shù)據(jù)的臨床文本處理與知識發(fā)現(xiàn)有助于促進健康醫(yī)療服務與創(chuàng)新。

引 言

隨著科技的飛速發(fā)展,國民生活水平日益提高,健康已經(jīng)成為當前人們最關心最直接最現(xiàn)實的主要利益問題之一。以健康為導向,積極發(fā)展和應用醫(yī)療大數(shù)據(jù)已成為世界各國的重要共識。目前,醫(yī)療大數(shù)據(jù)已經(jīng)成為我國信息化建設及戰(zhàn)略資源的重要內(nèi)容。


醫(yī)療大數(shù)據(jù)一方面為醫(yī)學研究和臨床實踐提供了豐富的基礎數(shù)據(jù)資源,另一方面信息過載又導致現(xiàn)有的研究和實踐工作淹沒于大數(shù)據(jù)的洪流之中,為臨床知識的獲取與利用帶來了挑戰(zhàn)。如何通過對醫(yī)療大數(shù)據(jù)的深度挖掘、科學組織和有效管理,實現(xiàn)醫(yī)學信息與知識的充分利用和共享,提高醫(yī)學決策與管理的效率和質(zhì)量,是當前醫(yī)學信息學面臨的重要任務。

醫(yī)療大數(shù)據(jù)可以分為三類:結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。其中,非結構化的臨床文本是醫(yī)療活動過程中產(chǎn)生的一類重要的信息資源,也是醫(yī)療大數(shù)據(jù)的重要組成部分。臨床數(shù)據(jù)具有多模態(tài)、不完整、冗余和隱私性等特點,且由于表達方式的自由性,臨床文本缺乏統(tǒng)一的結構框架,表現(xiàn)出語法結構不完整、包含大量醫(yī)療行業(yè)習慣用語以及語義模糊等特征,增加了數(shù)據(jù)處理與分析的復雜度,難以直接進行高效的數(shù)據(jù)挖掘,從而影響知識發(fā)現(xiàn)的效率與質(zhì)量。

本文以臨床文本數(shù)據(jù)為主要研究對象,重點從知識發(fā)現(xiàn)生命周期、文本處理流程和關鍵技術等方面,研究基于醫(yī)療大數(shù)據(jù)的臨床文本處理與知識發(fā)現(xiàn)的方法。

知識發(fā)現(xiàn)生命周期

基于醫(yī)療大數(shù)據(jù)的臨床文本處理與知識發(fā)現(xiàn)總體框架如圖1所示。首先從臨床文本庫中提取原始數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉換、數(shù)據(jù)歸約以及隱私保護等預處理操作,形成文本挖掘的目標數(shù)據(jù);文本挖掘包括文本處理和信息抽取兩個主要環(huán)節(jié);文本挖掘的結果需要通過評估反饋實現(xiàn)迭代優(yōu)化;知識發(fā)現(xiàn)的成果面向實際應用。數(shù)據(jù)準備、文本挖掘、評估反饋形成了知識發(fā)現(xiàn)的全生命周期。


微信圖片_20240430163128.png
圖1  臨床文本處理與知識發(fā)現(xiàn)

臨床文本處理流程

數(shù)據(jù)準備

數(shù)據(jù)提取 知識發(fā)現(xiàn)的首要步驟是基于相關的先驗知識和應用目標對問題進行定義,以確定文本處理與知識發(fā)現(xiàn)的目標。在此基礎上,結合知識應用的實際需求,從醫(yī)療信息系統(tǒng)的各種臨床數(shù)據(jù)庫中選擇與臨床文本分析任務相關的數(shù)據(jù),經(jīng)過數(shù)據(jù)提取后,創(chuàng)建形成知識發(fā)現(xiàn)任務的原始目標數(shù)據(jù)集。

預處理 醫(yī)療大數(shù)據(jù)由多種異構數(shù)據(jù)源組成,來自醫(yī)院信息系統(tǒng)的原始數(shù)據(jù)具有數(shù)據(jù)多樣、不完整、冗余、包含敏感信息等復雜特征,難以對其直接分析處理和挖掘。因此,必須對原始數(shù)據(jù)進行預處理,以確保數(shù)據(jù)的準確性、完整性、一致性和隱私性。經(jīng)過預處理的數(shù)據(jù)的質(zhì)量將關系到知識發(fā)現(xiàn)的結果,高質(zhì)量的數(shù)據(jù)更有可能帶來高質(zhì)量的結果,需要合理選擇預處理的方法策略。據(jù)統(tǒng)計,在整個數(shù)據(jù)處理過程中,預處理階段的工作量超過60%。


文本挖掘

文本處理 為了便于從醫(yī)療文本中實現(xiàn)對信息的抽取,需要基于自然語言處理的方法對非結構化的醫(yī)療文本進行處理。由于中文表達中的詞與詞之間沒有如英文那樣有空格標識,且目前機器學習處于有監(jiān)督的學習階段,呈現(xiàn)逐漸向無監(jiān)督學習發(fā)展的趨勢,而基于監(jiān)督學習和半監(jiān)督學習方法的信息抽取均需要標注語料的支持,因此,分詞和標注是醫(yī)療文本處理的兩項首要任務。

信息抽取 信息抽取是自然語言處理的一項重要任務,其目的在于對自然語言文本進行分析,以提取結構化的有用信息。醫(yī)療文本中包含有大量的醫(yī)療實體(如:疾病、治療、檢查、癥狀)及其之間豐富的語義關系(如:治療改善了疾病、治療惡化了癥狀、檢查證實了疾病、癥狀表明了疾?。?。命名實體識別和關系抽取是臨床文本信息抽取的兩項重要任務。

評估與反饋
性能評估 需要選擇特定的度量參數(shù),在數(shù)據(jù)挖掘之后,通過實驗和測試來評估模型的性能。與此同時,預先選取的度量參數(shù)可用于指導和約束知識發(fā)現(xiàn)過程。
交互迭代 知識發(fā)現(xiàn)是一個反復迭代的過程。對于數(shù)據(jù)挖掘所得到的模式和知識,需要通過持續(xù)的分析、反饋與糾正實現(xiàn)進一步優(yōu)化,從而獲得相對理想的知識模型。例如,基于數(shù)據(jù)挖掘的結果,分析是否需要從內(nèi)外部數(shù)據(jù)源獲取更多的數(shù)據(jù),或者需要重新對數(shù)據(jù)進行處理。
知識表示 利用標簽云、熱力圖、樹狀圖等可視化技術直觀展示所發(fā)現(xiàn)的知識,基于關聯(lián)關系和時間序列還可實現(xiàn)患者畫像。知識發(fā)現(xiàn)的結果可用于病歷檢索、疾病預測、藥物發(fā)現(xiàn)、臨床輔助決策、智能問答、精準醫(yī)療以及臨床教學等醫(yī)學應用。

關鍵技術

數(shù)據(jù)預處理
數(shù)據(jù)清洗 數(shù)據(jù)清洗包括填補空缺值、平滑噪聲數(shù)據(jù)和糾正不一致數(shù)據(jù)來改善數(shù)據(jù)質(zhì)量等任務。由于人工填補數(shù)據(jù)工作量大且可行性差,可采用貝葉斯和決策樹等機器學習方法來預測最佳默認值。對于數(shù)據(jù)源中的異常屬性值,可采用分箱、回歸、聚類等平滑噪聲數(shù)據(jù)處理方法。數(shù)據(jù)的不一致性可通過數(shù)據(jù)之間的相關性分析來糾正。
數(shù)據(jù)集成 數(shù)據(jù)集成的作用在于將多來源的臨床文本數(shù)據(jù)集成至統(tǒng)一的數(shù)據(jù)存儲中,提高數(shù)據(jù)挖掘的準確性和速度。數(shù)據(jù)集成需要解決異構數(shù)據(jù)集成時的表達不一致和冗余數(shù)據(jù)問題,可通過相關分析來檢測,卡方檢驗是常用的分析方法。
數(shù)據(jù)轉換 數(shù)據(jù)轉換的作用在于將原始數(shù)據(jù)轉換成適合于數(shù)據(jù)挖掘的統(tǒng)一形式。數(shù)據(jù)轉換方法包括平滑噪聲、數(shù)據(jù)聚合和數(shù)據(jù)規(guī)范化。其中,常用的規(guī)范化方法有最小-最大規(guī)范化、零-均值規(guī)范化和小數(shù)定標規(guī)范化。
數(shù)據(jù)歸約 基于醫(yī)療大數(shù)據(jù)的文本處理,需要在確保數(shù)據(jù)完整性的前提下,通過數(shù)據(jù)歸約可獲得精簡的數(shù)據(jù)集合,提高數(shù)據(jù)挖掘的效率。數(shù)據(jù)歸約可采用數(shù)據(jù)立方體聚集、維度歸約、數(shù)值歸約和數(shù)據(jù)壓縮等方法。其中,維度歸約通過去除數(shù)據(jù)集中的無關變量或屬性,可有效控制數(shù)據(jù)處理的數(shù)量,主要技術包括小波變換、主成分分析等。
隱私保護 我國于2011年印發(fā)了《電子病歷系統(tǒng)功能規(guī)范(試行)》,明確了在電子病歷過程使用過程中需進行隱私保護。醫(yī)療大數(shù)據(jù)的隱私保護所涉及的技術問題包括數(shù)據(jù)加密、隱私匿名處理和訪問控制等,常用的算法有K-Anonymity、L-Diversity、T-Closeness、差分隱私、同態(tài)加密、零知識證明等。

文本處理與信息抽取
中文分詞 目前分詞技術較為成熟,開源的中文分詞系統(tǒng)包括有NLPIR、Jieba、THULAC、LTP、Stanford CoreNLP等。然而,醫(yī)療文本在語言表達方面具有獨特性,例如,精煉的語句表達要求使得其語法成分不完整,存在大量醫(yī)學術語、數(shù)學符號和英文縮寫等。針對專業(yè)性要求較強的醫(yī)療領域,需要基于先驗知識、權威詞典、語料庫來提高分詞的效果。
文本標注 醫(yī)療文本的標注需要有標注規(guī)范的指導,例如,i2b2 2010的標注規(guī)范包括有醫(yī)療實體類型、實體間關系以及修飾類型。語料的標注的模式包括傳統(tǒng)模式、眾包模式和團體模式,均離不開人工的參與,而人工標注是一項耗時耗力的工作,特別是對于醫(yī)療領域,需要有較強專業(yè)背景知識的專家指導標注?;谏倭咳斯俗?shù)據(jù)實現(xiàn)機器自動標注是一種可取的方法,可有效節(jié)約標注成本并提高標注效率。標注的效果可通過F值和Kappa值等評價指標來對標注的一致性進行評估。
命名實體識別 命名實體識別是信息提取的重要組成部分,也是醫(yī)療文本挖掘的基礎。命名實體識別方法主要有基于詞典的方法、基于規(guī)則的方法和基于機器學習的方法。醫(yī)療數(shù)據(jù)包含大量的醫(yī)學術語,詞典是醫(yī)學知識發(fā)現(xiàn)所需的重要資源,基于詞典和規(guī)則的方法適用于規(guī)律性較強的簡單任務,單純的基于詞典和規(guī)則的方法難以應對復雜語言的處理要求。基于統(tǒng)計機器學習的方法具有較好的健壯性,其中,條件隨機場(Conditional Random Field,CRF)模型在基于機器學習方法中得到廣泛應用。隨著機器學習的發(fā)展,基于CNN、RNN、LSTM等模型的深度學習方法備受關注,該方法同時具備良好的非線性函數(shù)擬合能力和強大的序列建模能力。
關系抽取 關系抽取的方法主要有基于共現(xiàn)的方法、基于模式匹配的方法以及基于機器學習的方法?;诠铂F(xiàn)方法的基本思想是當兩個實體出現(xiàn)在同一個句子中時,則這兩個實體之間存在關聯(lián),且共現(xiàn)的頻率越高,則關系越強?;谀J狡ヅ涞姆椒ㄐ枰谡Z言學知識預先構造模式集合,再將經(jīng)過處理后的醫(yī)療文本與之匹配進行關系抽取。對于基于機器學習的關系抽取方法,其中監(jiān)督學習方法的基本思路是將醫(yī)療關系抽取視為分類問題,半監(jiān)督學習方法主要通過基于少量標注語料來抽取關系,無監(jiān)督的方法則主要基于上下文信息對語義關系進行聚類,該方法存在一定的盲目性,其性能有待提升。
性能評估 在自然語言處理中,通常采用準確率、精準率、召回率和F值作為方法性能的評估指標。對于面向臨床文本數(shù)據(jù)的分類任務,評估指標還包括受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)和曲線下面積(Area Under Curve,AUC)。ROC曲線能夠全面地展示分類器在不同閾值下的分類性能,縱坐標為真陽率(True Positive Rate,TPR),表示真實的正例中被預測正確的比例,橫坐標為假陽率(False Positive Rate,F(xiàn)PR),表示真實的反例中被預測正確的比例。如果分類算法的ROC曲線越靠近坐標平面的左上角,則說明該算法的分類效果越好。為了對分類性能進行更好地定量分析,可以采用ROC曲線下的面積AUC來對分類性能進行評估,分類算法的AUC值越接近于1,表明該算法的預測效果越理想。

結 語

醫(yī)療大數(shù)據(jù)包含有大量有價值的醫(yī)療信息,蘊含了與人類生命和健康密切相關的豐富知識,亟待挖掘與發(fā)現(xiàn)。為提升對海量臨床文本的處理與利用能力,本文以臨床文本數(shù)據(jù)為主要研究對象,從知識發(fā)現(xiàn)生命周期、文本處理流程以及關鍵技術等方面,研究基于醫(yī)療大數(shù)據(jù)的數(shù)據(jù)處理與知識發(fā)現(xiàn)方法?;卺t(yī)療大數(shù)據(jù)的臨床文本處理與知識發(fā)現(xiàn)具有數(shù)據(jù)準備、文本挖掘、評估反饋的全生命周期,所提出的方法為后續(xù)臨床知識應用研究與實踐提供指導。


文章來源:胡佳慧,趙琬清,方安,任慧玲. 基于醫(yī)療大數(shù)據(jù)的臨床文本處理與知識發(fā)現(xiàn)方法研究[J]. 中國數(shù)字醫(yī)學,2020,15(7):11-13,88.


智慧醫(yī)療網(wǎng) ? 2022 版權所有   ICP備案號:滬ICP備17004559號-5