與大數(shù)據(jù)在其他行業(yè)的應(yīng)用不同,對(duì)醫(yī)學(xué)大數(shù)據(jù)價(jià)值的深度挖掘,不僅要分析數(shù)據(jù)間的相關(guān)性,還要嚴(yán)格驗(yàn)證其中的因果性。如果只分析數(shù)據(jù)相關(guān)性,難以進(jìn)一步判斷流行病學(xué)的趨勢(shì)及在臨床應(yīng)用中產(chǎn)生具有較大參考意義的明確結(jié)論。
大數(shù)據(jù)帶來的信息也在改變醫(yī)學(xué)教育和醫(yī)學(xué)的生態(tài)系統(tǒng)。以數(shù)字方式收集和存儲(chǔ)的數(shù)據(jù)量呈指數(shù)級(jí)增長。醫(yī)療行業(yè)每天都在產(chǎn)生大量數(shù)據(jù),這是大數(shù)據(jù)應(yīng)用的一個(gè)重要領(lǐng)域。為了向患者提供最好的服務(wù)和護(hù)理,許多國家的醫(yī)療機(jī)構(gòu)提出了各種各樣的建議。如何更好地開發(fā)和利用大型醫(yī)學(xué)大數(shù)據(jù)已成為人們關(guān)注的焦點(diǎn),促進(jìn)醫(yī)學(xué)大數(shù)據(jù)的研究和應(yīng)用已成為現(xiàn)代醫(yī)學(xué)研究的關(guān)鍵因素。
醫(yī)學(xué)數(shù)據(jù)具有疾病多樣性,治療和結(jié)果的異質(zhì)性,數(shù)據(jù)收集、處理和解釋的復(fù)雜性等特點(diǎn)。隨著醫(yī)療信息的發(fā)展,在醫(yī)療服務(wù)、醫(yī)療保健和衛(wèi)生管理的過程中產(chǎn)生了大量的數(shù)據(jù),形成了醫(yī)學(xué)大數(shù)據(jù)。醫(yī)學(xué)大數(shù)據(jù)具有各種來源,如行政索賠記錄、臨床登記、電子健康檔案、生物特征數(shù)據(jù)、患者報(bào)告數(shù)據(jù)等。這些數(shù)據(jù)在醫(yī)療保健系統(tǒng)的大數(shù)據(jù)應(yīng)用程序和數(shù)據(jù)收集中有重要價(jià)值。例如,糖尿病患者使用移動(dòng)設(shè)備相互交流,共享信息或搜索信息,從而形成一大批的大數(shù)據(jù)網(wǎng)絡(luò)。除了具有強(qiáng)大的統(tǒng)計(jì)功能和復(fù)雜性之外,數(shù)據(jù)還需要實(shí)時(shí)可用,以便立即對(duì)其進(jìn)行分析和使用。
醫(yī)學(xué)大數(shù)據(jù)挖掘方法
隨著信息化時(shí)代的到來,數(shù)據(jù)挖掘技術(shù)被越來越多地應(yīng)用于醫(yī)學(xué)大數(shù)據(jù)分析。大數(shù)據(jù)分析技術(shù)可用于大規(guī)模遺傳學(xué)研究、公共衛(wèi)生、個(gè)性化和精準(zhǔn)醫(yī)學(xué)、新藥開發(fā)等,在醫(yī)學(xué)領(lǐng)域越來越受歡迎。大數(shù)據(jù)方法的應(yīng)用可以更有效地存儲(chǔ)和提取醫(yī)療記錄及后續(xù)數(shù)據(jù);同時(shí),從醫(yī)療數(shù)據(jù)中尋找潛在的聯(lián)系或規(guī)律,以獲得對(duì)患者進(jìn)行診斷和治療的有效知識(shí),從而提高疾病預(yù)測(cè)的準(zhǔn)確性和治愈率。
與傳統(tǒng)研究方法不同,數(shù)據(jù)挖掘是在沒有明確假設(shè)的情況下挖掘信息和發(fā)現(xiàn)知識(shí),即沒有事先的研究和設(shè)計(jì),所獲得的信息應(yīng)該有3個(gè)特征,即以前未知、有效和實(shí)用。數(shù)據(jù)挖掘技術(shù)的出現(xiàn)并不是要取代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù),而是統(tǒng)計(jì)分析方法的擴(kuò)展。
數(shù)據(jù)挖掘方法可分為描述性方法和預(yù)測(cè)性方法兩類。描述性方法展現(xiàn)了數(shù)據(jù)的一般性質(zhì),包括關(guān)聯(lián)分析和聚類分析;預(yù)測(cè)方法包括分類和回歸。
關(guān)聯(lián)分析,也稱為關(guān)聯(lián)挖掘,是指搜索存在于事務(wù)數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中的項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。換句話說,關(guān)聯(lián)分析是指發(fā)現(xiàn)來自大量異構(gòu)數(shù)據(jù)之間的聯(lián)系。購物籃分析是關(guān)聯(lián)分析的一個(gè)典型例子,它主要通過在顧客的購物籃中發(fā)現(xiàn)不同的產(chǎn)品分析來顧客的購買習(xí)慣,了解顧客經(jīng)常同時(shí)購買哪些商品,可以幫助零售商制定營銷計(jì)劃。關(guān)聯(lián)分析包括兩個(gè)步驟,第一步是列出集合中的所有高頻項(xiàng)目;第二步是根據(jù)高頻項(xiàng)目生成頻繁的關(guān)聯(lián)規(guī)則。根據(jù)第一步得到高頻項(xiàng)目組,如果該規(guī)則滿足最小置信度,則該規(guī)則為關(guān)聯(lián)規(guī)則。關(guān)聯(lián)分析的機(jī)器學(xué)習(xí)方法包括先驗(yàn)算法、FP-tree 算法和Upgrade LIFT 算法。
先驗(yàn)算法基于先驗(yàn)原則,反映了子集與超集之間的關(guān)系,即頻繁項(xiàng)集的所有非空子集都必須是頻繁的,而所有非頻繁項(xiàng)集的超集都必須是罕見的。頻繁模式指的是出現(xiàn)在每個(gè)購物記錄中的各種項(xiàng)目實(shí)際上反映了一個(gè)組合的性質(zhì)。這些項(xiàng)目的組合在記錄中是無序的,這種無序的組合稱為“模式”。其中,有些模式頻率低,有些頻率高。一般認(rèn)為,較高的頻率通常更有指導(dǎo)意義。這種高頻模式稱為“頻繁模式”。因此,先驗(yàn)算法的性質(zhì)主要用于在數(shù)據(jù)集中查找關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集。先驗(yàn)算法可以更好地避免盲搜索,提高頻繁項(xiàng)集搜索的效率。
FP-tree 算法是通過逐個(gè)讀取事務(wù)并將事務(wù)映射到FP-tree 中的一條路徑構(gòu)建的。由于不同的事務(wù)可能有幾個(gè)相同的項(xiàng),因此它們的路徑可能部分重疊。路徑重疊越多,使用FP-tree 結(jié)構(gòu)得到的壓縮效果越好;如果FP-tree 足夠小,能存儲(chǔ)于存儲(chǔ)器中,可以直接從存儲(chǔ)器結(jié)構(gòu)中提取頻繁的數(shù)據(jù)集,而無須重復(fù)掃描并將數(shù)據(jù)存儲(chǔ)于硬盤上。FP-tree 算法的主要思想是在經(jīng)歷一次掃描之后將數(shù)據(jù)庫中的頻率集壓縮為一個(gè)頻繁的模式樹,同時(shí)仍然保留相關(guān)信息,然后分別挖掘條件基。
聚類分析是為了研究如何將相似的東西分為一類。聚類通過靜態(tài)分類將相似的對(duì)象劃分為不同的組或更多的子集,從而使同一子集中的成員對(duì)象具有相似的屬性。聚類算法有幾種,如K 均值算法、層次聚類算法、基于劃分和層次聚類算法。
K 均值算法是聚類分析中最常用、最基本的聚類算法,它是基于原型和分割距離技術(shù),根據(jù)給定的參數(shù)K,將N 個(gè)對(duì)象大致分為K 類,然后根據(jù)某些最優(yōu)原理對(duì)不合理的分類進(jìn)行修改。K 均值算法簡(jiǎn)單、快速、易于理解,時(shí)間復(fù)雜度低。然而,K 均值算法對(duì)高維數(shù)據(jù)處理較差,并且不能識(shí)別非球形簇。
層次聚類算法對(duì)數(shù)據(jù)集進(jìn)行層次分解,分為自下而上的凝聚層次聚類和自上而下的分裂層次聚類。常用的層次聚類算法包括樺樹、治愈、巖石、變色龍等算法。這種類型的算法最初將每個(gè)點(diǎn)視為一個(gè)集群,根據(jù)接近度進(jìn)行組合。當(dāng)組合在多種原因下導(dǎo)致不希望的結(jié)果時(shí),組合過程結(jié)束。
1996~2000 年,數(shù)據(jù)挖掘?qū)W者提出了大量的基于網(wǎng)格的聚類算法。該網(wǎng)格方法可以有效降低算法的計(jì)算復(fù)雜度,并且對(duì)密度參數(shù)也很敏感?;诰W(wǎng)格的聚類算法采用了多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu),處理速度非???,并且僅取決于量化空間中每個(gè)維度中的元素?cái)?shù)量。常見的方法包括刺、團(tuán)和波簇。
分類是構(gòu)造一個(gè)分類模型,輸入樣本的屬性值,輸出對(duì)應(yīng)的類別,將每個(gè)樣本映射到預(yù)先定義好的類別。預(yù)測(cè)是指建立2種或2種以上變量間相互依賴的函數(shù)模型,然后進(jìn)行預(yù)測(cè)或控制。
分類算法有兩步過程。一是學(xué)習(xí)步,通過歸納分析訓(xùn)練樣本集建立分類模型得到分類規(guī)則;二是分類步,先用已知的測(cè)試樣本集評(píng)估分類規(guī)則的準(zhǔn)確率,如果準(zhǔn)確率是可以接受的,則使用該模型對(duì)未知類標(biāo)記的待測(cè)樣本集進(jìn)行預(yù)測(cè)。
預(yù)測(cè)模型的實(shí)現(xiàn)步驟也有兩步,第一步是通過訓(xùn)練集建立預(yù)測(cè)屬性(數(shù)值型的)的函數(shù)模型,第二步是在模型通過檢驗(yàn)后進(jìn)行預(yù)測(cè)或控制。
分類模型建立在已有類標(biāo)記的數(shù)據(jù)集上,模型在已有樣本上的準(zhǔn)確率可以更方便計(jì)算,所以分類屬于有監(jiān)督的學(xué)習(xí)。其目標(biāo)是“標(biāo)記”數(shù)據(jù),以提取有價(jià)值的數(shù)據(jù)。類別越準(zhǔn)確,結(jié)果就越有價(jià)值。通常采用邏輯回歸、先驗(yàn)回歸、經(jīng)典判別分析,建立一個(gè)分類模型,可以幫助我們更好地理解數(shù)據(jù),然而這也有局限性。當(dāng)因變量為分類變量,且自變量包含多個(gè)分類變量或分類變量水平較高時(shí),經(jīng)典統(tǒng)計(jì)量不適用,機(jī)器學(xué)習(xí)方法對(duì)處理復(fù)雜數(shù)據(jù)更實(shí)用,精度較好。
回歸是確定多種變量相互依賴的定量關(guān)系的方法?;貧w分析是一種統(tǒng)計(jì)方法,對(duì)具有一個(gè)或多個(gè)自變量的因變量(目標(biāo)變量)和自變量(預(yù)測(cè)變量)之間的關(guān)系進(jìn)行建模。具體地說,回歸分析有助于我們理解在其他自變量保持固定的情況下,自變量的值對(duì)應(yīng)于自變量的變化方式。傳統(tǒng)的回歸是一種統(tǒng)計(jì)分析方法,通過普通的線性回歸確定兩個(gè)或多個(gè)變量之間的定量關(guān)系,并被廣泛使用。
回歸分析可根據(jù)自變量的數(shù)量分為一元線性回歸分析和多元線性回歸分析。一元線性回歸分析只包含一個(gè)自變量和一個(gè)因變量,一條直線可以近似表示兩者之間的關(guān)系。如果回歸分析包含兩個(gè)或兩個(gè)以上的自變量,且因變量與自變量之間是線性關(guān)系則稱為多元線性回歸分析。在實(shí)踐中,一種現(xiàn)象通常與多種因素有關(guān)。在執(zhí)行回歸分析時(shí),需要兩個(gè)或多個(gè)自變量,這種回歸被稱為多元回歸。通過多個(gè)自變量的最優(yōu)組合預(yù)測(cè)或估計(jì)因變量比僅用一個(gè)自變量預(yù)測(cè)或估計(jì)更有效、更現(xiàn)實(shí)。因此,多元線性回歸比一元線性回歸更實(shí)用。多元線性回歸分析包括3 個(gè)步驟。第一步,利用收集到的數(shù)據(jù)建立回歸方程;第二步,對(duì)分析得到的回歸方程進(jìn)行假設(shè)檢驗(yàn);第三步,當(dāng)回歸方程意義顯著時(shí),需要對(duì)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)。在剔除沒有顯著部分回歸系數(shù)的變量后,重新建立不包含這些變量的多元回歸方程,并重復(fù)上述過程。其基本原理是將最小二乘法應(yīng)用于線性回歸模型的回歸。
大多數(shù)傳統(tǒng)算法的統(tǒng)計(jì)模型對(duì)數(shù)據(jù)都有特定的要求,而模型本身也有一種可以清晰表達(dá)的數(shù)學(xué)形式。該模型的利弊大多是根據(jù)數(shù)據(jù)分布假設(shè)得到的檢驗(yàn)來判斷的。然而,在實(shí)際工作過程中,很難對(duì)數(shù)據(jù)在現(xiàn)實(shí)世界中的分布做出任何假設(shè)。
機(jī)器學(xué)習(xí)算法對(duì)數(shù)據(jù)沒有假設(shè),結(jié)果也有交叉性。通過驗(yàn)證算法判斷,基于該算法或程序的預(yù)測(cè)模型相當(dāng)有效,交叉驗(yàn)證的結(jié)果很容易被大多數(shù)實(shí)踐工作者理解和接受。機(jī)器學(xué)習(xí)中的回歸是一種有監(jiān)督的學(xué)習(xí)技術(shù),有助于發(fā)現(xiàn)變量之間的相關(guān)性,并使我們能夠基于一個(gè)或多個(gè)預(yù)測(cè)變量預(yù)測(cè)連續(xù)輸出變量,主要用于預(yù)測(cè)時(shí)間序列建模及確定變量之間的因果關(guān)系。回歸模型的機(jī)器學(xué)習(xí)算法有決策樹、自適應(yīng)增強(qiáng)、套袋法、隨機(jī)森林、支持向量機(jī)、最近鄰算法和人工神經(jīng)網(wǎng)絡(luò)。
機(jī)遇與挑戰(zhàn)
利用新的前沿學(xué)科生成大數(shù)據(jù)和分析大數(shù)據(jù)是傳統(tǒng)醫(yī)學(xué)和精準(zhǔn)醫(yī)學(xué)之間的發(fā)展趨勢(shì)。大數(shù)據(jù)的發(fā)展將有助于精準(zhǔn)醫(yī)療的全球應(yīng)用和新的衛(wèi)生管理模式的出現(xiàn)。然而,醫(yī)學(xué)大數(shù)據(jù)挖掘仍面臨巨大挑戰(zhàn),主要是醫(yī)學(xué)知識(shí)概念復(fù)雜,醫(yī)學(xué)知識(shí)推理關(guān)鍵技術(shù)尚未突破,醫(yī)學(xué)信息源廣泛,以及數(shù)據(jù)維度高、類別不平衡、結(jié)構(gòu)復(fù)雜,醫(yī)院電子病歷系統(tǒng)的開放性和可擴(kuò)展性較差,院外流程監(jiān)管不力。雖然在大量數(shù)據(jù)中產(chǎn)生新的發(fā)現(xiàn)和結(jié)論并不容易,但我們可以預(yù)見未來在醫(yī)療和生活領(lǐng)域大數(shù)據(jù)將會(huì)發(fā)揮不可替代的作用。
因此,《醫(yī)學(xué)大數(shù)據(jù)分析挖掘技術(shù)與應(yīng)用》(王海英等主編. 北京:科學(xué)出版社,2024.5)闡述了醫(yī)學(xué)大數(shù)據(jù)的實(shí)用技術(shù)與經(jīng)典案例,從技術(shù)原理到實(shí)際應(yīng)用、從統(tǒng)計(jì)方法到數(shù)據(jù)建模,全面概括當(dāng)前形勢(shì)下醫(yī)學(xué)大數(shù)據(jù)技術(shù)與應(yīng)用,幫助讀者理解和掌握醫(yī)學(xué)大數(shù)據(jù)挖掘的相關(guān)理論與方法,為流行病與衛(wèi)生統(tǒng)計(jì)學(xué)、統(tǒng)計(jì)學(xué)專業(yè)人員及從事醫(yī)學(xué)大數(shù)據(jù)挖掘的科研人員提供參考。
智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有 ICP備案號(hào):滬ICP備17004559號(hào)-5