久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 
當(dāng)前位置:首頁 > 醫(yī)療大數(shù)據(jù)

分享|醫(yī)療大數(shù)據(jù)挖掘的原理與應(yīng)用

發(fā)布時(shí)間:2024-10-05 來源:PM靖茗 瀏覽量: 字號(hào):【加大】【減小】 手機(jī)上觀看

打開手機(jī)掃描二維碼
即可在手機(jī)端查看

一、醫(yī)療大數(shù)據(jù)挖掘的核心技術(shù)

醫(yī)療大數(shù)據(jù)挖掘是伴隨計(jì)算機(jī)發(fā)展而來的一門新興技術(shù),涉及的學(xué)科領(lǐng)域和方法很多,匯集了來自統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)技術(shù)、信息檢索、網(wǎng)絡(luò)科學(xué)、人工智能、高性能計(jì)算和數(shù)據(jù)可視化等各學(xué)科的成果。多學(xué)科技術(shù)的相互交融和相互促進(jìn),相互依賴又互不相同,使得數(shù)據(jù)挖掘這一學(xué)科蓬勃發(fā)展。數(shù)據(jù)挖掘核心技術(shù)主要包括統(tǒng)計(jì)學(xué)方法、人工智能方法、數(shù)據(jù)庫(kù)方法、信息檢索和可視化方法等。其中,統(tǒng)計(jì)學(xué)方法有回歸分析、判別分析等;人工智能方法有機(jī)器學(xué)習(xí)方法(常用自然語言處理技術(shù)、專家系統(tǒng)、模式識(shí)別等)和神經(jīng)網(wǎng)絡(luò)方法(常用前向神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)等)等;數(shù)據(jù)庫(kù)方法包括基于可視化的多維數(shù)據(jù)分析或OLAP方法等。SAS EM、Modeler、K-Miner、Tempo等數(shù)據(jù)挖掘軟件均提供了各類可視化模塊。醫(yī)療大數(shù)據(jù)挖掘的核心技術(shù)如圖所示。

1、醫(yī)學(xué)統(tǒng)計(jì)學(xué)

醫(yī)學(xué)統(tǒng)計(jì)學(xué)是以醫(yī)學(xué)理論為指導(dǎo),運(yùn)用統(tǒng)計(jì)學(xué)原理和方法研究醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)的收集、分析、解釋和表示。數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)具有天然的聯(lián)系。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析方法而出現(xiàn)的。相反,它是統(tǒng)計(jì)分析方法的延伸和擴(kuò)展。數(shù)據(jù)挖掘就其算法本身,很大一部分可以從數(shù)理統(tǒng)計(jì)中獲得理論解釋,但作為一個(gè)整體的研究方向,應(yīng)該從計(jì)算機(jī)的層面進(jìn)行全局的考慮,即從系統(tǒng)的角度分析,數(shù)據(jù)挖掘是面向應(yīng)用的。醫(yī)學(xué)統(tǒng)計(jì)學(xué)主要目的是通過對(duì)已發(fā)生的事件進(jìn)行分析,對(duì)未來事件發(fā)生的可能性做出統(tǒng)計(jì)推斷,也就是預(yù)測(cè)。大數(shù)據(jù)挖掘的目的亦是從復(fù)雜醫(yī)學(xué)數(shù)據(jù)池中發(fā)現(xiàn)新的模式和知識(shí),挖掘得到有價(jià)值的新信息,并指導(dǎo)實(shí)踐。

在數(shù)據(jù)挖掘中使用統(tǒng)計(jì)學(xué)方法并不簡(jiǎn)單。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和很高的計(jì)算復(fù)雜度,預(yù)測(cè)的準(zhǔn)確度還是令人滿意的,但對(duì)使用者的要求很高。一個(gè)巨大的挑戰(zhàn)就是將統(tǒng)計(jì)學(xué)方法應(yīng)用于大型數(shù)據(jù)集,因?yàn)閼?yīng)用于分布在多個(gè)邏輯或物理站點(diǎn)上的大型數(shù)據(jù)集時(shí),需要小心地設(shè)計(jì)和調(diào)整算法,以降低計(jì)算開銷。

2、醫(yī)學(xué)人工智能

醫(yī)療大數(shù)據(jù)挖掘的核心技術(shù)便是融合人工智能與機(jī)器學(xué)習(xí)技術(shù),挖掘人的生命和疾病現(xiàn)象及本質(zhì)規(guī)律,也經(jīng)常被稱為醫(yī)學(xué)人工智能。機(jī)器學(xué)習(xí)屬于計(jì)算機(jī)和統(tǒng)計(jì)學(xué)交叉學(xué)科,核心目標(biāo)是通過函數(shù)映射、數(shù)據(jù)訓(xùn)練、最優(yōu)化求解、模型評(píng)估等一系列算法實(shí)現(xiàn)讓計(jì)算機(jī)擁有對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分類和預(yù)測(cè)的功能。機(jī)器學(xué)習(xí)領(lǐng)域包括很多種類的智能處理算法,分類、聚類、回歸、相關(guān)分析等每一類中都有很多算法進(jìn)行支撐,如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、邏輯回歸、決策樹、貝葉斯網(wǎng)絡(luò)、隨機(jī)森林、判別分析等。醫(yī)療大數(shù)據(jù)挖掘利用了人工智能領(lǐng)域,尤其是機(jī)器學(xué)習(xí)方面的研究成果,數(shù)據(jù)挖掘的核心技術(shù)可以說是機(jī)器學(xué)習(xí),這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)有許多相似之處。對(duì)于分類和聚類任務(wù),機(jī)器學(xué)習(xí)研究通常關(guān)注模型的準(zhǔn)確率。除準(zhǔn)確率之外,醫(yī)療大數(shù)據(jù)挖掘研究非常強(qiáng)調(diào)挖掘方法在大數(shù)據(jù)上的有效性和可伸縮性,以及處理復(fù)雜醫(yī)學(xué)數(shù)據(jù)的方法,以開發(fā)新的、非傳統(tǒng)的方法。

數(shù)據(jù)挖掘強(qiáng)調(diào)算法對(duì)大數(shù)據(jù)量的適應(yīng)性,算法必須對(duì)記錄為數(shù)十萬條及以上的數(shù)據(jù)集有很好的性能;周期性更新的數(shù)據(jù)集需要考慮能對(duì)這些增量數(shù)據(jù)進(jìn)行處理而不用從頭計(jì)算一次;數(shù)據(jù)挖掘還需考慮如何處理數(shù)據(jù)集體積大于內(nèi)存容量的問題和并行處理問題。

3、數(shù)據(jù)庫(kù)技術(shù)

很多大中型醫(yī)院相繼建立了自己的HIS,隨著HIS的應(yīng)用和不斷發(fā)展,數(shù)據(jù)庫(kù)中的數(shù)據(jù)量迅速膨脹,數(shù)據(jù)庫(kù)規(guī)模逐漸擴(kuò)大,復(fù)雜程度日益增加。盡管積累了大量的業(yè)務(wù)數(shù)據(jù),真正能將這些數(shù)據(jù)的價(jià)值挖掘出來并運(yùn)用到醫(yī)院的臨床輔助診斷和日常管理決策中的卻很少。利用前沿的數(shù)據(jù)倉(cāng)庫(kù)技術(shù),根據(jù)實(shí)際需求,從醫(yī)院海量信息數(shù)據(jù)庫(kù)中分析、提取,進(jìn)行有效的數(shù)據(jù)組織,來構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)模型,從而開展數(shù)據(jù)挖掘,對(duì)全方位醫(yī)療管理決策是必要的。

數(shù)據(jù)庫(kù)系統(tǒng)研究關(guān)注創(chuàng)建、使用和維護(hù)數(shù)據(jù)庫(kù)。特別是數(shù)據(jù)庫(kù)系統(tǒng)研究者們已經(jīng)建立了數(shù)據(jù)建模、查詢語言、查詢處理與優(yōu)化方法、數(shù)據(jù)存儲(chǔ)以及索引和存取方法的公認(rèn)原則。數(shù)據(jù)庫(kù)系統(tǒng)因其在處理非常大的、相對(duì)結(jié)構(gòu)化的數(shù)據(jù)集方面的高度可伸縮性而聞名。數(shù)據(jù)倉(cāng)庫(kù)是為了數(shù)據(jù)挖掘做預(yù)準(zhǔn)備,數(shù)據(jù)挖掘可建立在數(shù)據(jù)倉(cāng)庫(kù)之上。數(shù)據(jù)挖掘成功的關(guān)鍵之一是能夠訪問正確的、完整的和集成的數(shù)據(jù)。這也是對(duì)數(shù)據(jù)倉(cāng)庫(kù)的要求。數(shù)據(jù)倉(cāng)庫(kù)不僅是集成數(shù)據(jù)的一種方式和一個(gè)焦點(diǎn),而且所有的數(shù)據(jù)倉(cāng)庫(kù)的解決方案都源自和依賴數(shù)據(jù)源部件的質(zhì)量和效果。

數(shù)據(jù)倉(cāng)庫(kù)集成的、隨時(shí)間變化的、穩(wěn)定的、面向主題的特點(diǎn)為數(shù)據(jù)挖掘提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。許多數(shù)據(jù)挖掘任務(wù)都需要處理大型數(shù)據(jù)集,甚至是處理實(shí)時(shí)的快速流數(shù)據(jù)。因此,數(shù)據(jù)挖掘可以很好地利用可伸縮的數(shù)據(jù)庫(kù)技術(shù),以便獲得在大型數(shù)據(jù)集上的高效率和可伸縮性。此外,數(shù)據(jù)挖掘任務(wù)也可以用來擴(kuò)充已有數(shù)據(jù)庫(kù)系統(tǒng)的能力,以便滿足高度復(fù)雜的數(shù)據(jù)分析需求。

4、醫(yī)學(xué)信息檢索

醫(yī)學(xué)信息檢索主要研究和利用計(jì)算機(jī)、通信等信息技術(shù)處理生物醫(yī)學(xué)數(shù)據(jù)、信息、知識(shí)的存儲(chǔ)、組織、檢索與優(yōu)化等一系列醫(yī)學(xué)信息管理任務(wù),輔助醫(yī)學(xué)領(lǐng)域的科研與實(shí)踐,提高解決問題和制定決策的科學(xué)性、及時(shí)性和可靠性。信息檢索是根據(jù)所需的信息需求與存儲(chǔ)在數(shù)據(jù)庫(kù)中的信息進(jìn)行比較和選擇,即匹配的過程。例如,使用醫(yī)學(xué)數(shù)據(jù)庫(kù)管理系統(tǒng)查找個(gè)別記錄,或通過互聯(lián)網(wǎng)的搜索引擎查找特定的互聯(lián)網(wǎng)醫(yī)療頁面并檢索出相關(guān)的信息,則是信息檢索領(lǐng)域的任務(wù)。但并非所有的信息發(fā)現(xiàn)任務(wù)都被視為數(shù)據(jù)挖掘。信息檢索可能涉及使用復(fù)雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計(jì)算機(jī)科學(xué)技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。面對(duì)醫(yī)療領(lǐng)域復(fù)雜和多樣化的信息需求,醫(yī)學(xué)信息檢索能夠幫助醫(yī)生與患者獲取所需的知識(shí)和信息,在實(shí)際應(yīng)用中發(fā)揮著越來越重要的作用。

近年來,數(shù)據(jù)挖掘技術(shù)的發(fā)展推動(dòng)了面向醫(yī)療大數(shù)據(jù)的知識(shí)發(fā)現(xiàn),被用來增強(qiáng)信息檢索系統(tǒng)的能力。但隨著醫(yī)療信息化的發(fā)展,智能醫(yī)療、數(shù)字醫(yī)療、衛(wèi)生保健系統(tǒng)等應(yīng)用的快速增長(zhǎng),大量文本和醫(yī)學(xué)圖像數(shù)據(jù)日益累積并且可以聯(lián)機(jī)獲得。它們的有效搜索和分析同樣對(duì)數(shù)據(jù)挖掘提出了許多具有挑戰(zhàn)性的問題。因此,文本挖掘和醫(yī)學(xué)圖像等數(shù)據(jù)挖掘與信息檢索方法集成已經(jīng)變得日益重要。

二、醫(yī)療大數(shù)據(jù)挖掘的難點(diǎn)

1、快速的、具有健壯性的數(shù)據(jù)挖掘算法

醫(yī)療數(shù)據(jù)庫(kù)的數(shù)據(jù)量大、結(jié)構(gòu)多樣,要在海量的數(shù)據(jù)中提取知識(shí),需要花費(fèi)比其他數(shù)據(jù)庫(kù)更多的時(shí)間。同時(shí),我們需要從同一醫(yī)療數(shù)據(jù)庫(kù)或不同醫(yī)療數(shù)據(jù)庫(kù)挖掘不同類型的知識(shí)。由于不同的應(yīng)用需要不同類型的知識(shí),因此數(shù)據(jù)挖掘應(yīng)該覆蓋廣泛的數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)任務(wù)需求。因此必須考慮醫(yī)療大數(shù)據(jù)挖掘的性能問題,其中包括效率、可擴(kuò)展性和數(shù)據(jù)挖掘算法的并行化等問題。數(shù)據(jù)庫(kù)中數(shù)據(jù)的巨大規(guī)模、廣泛分布的數(shù)據(jù)存儲(chǔ)地點(diǎn),以及一些數(shù)據(jù)挖掘算法的計(jì)算復(fù)雜性等,都極大地推動(dòng)了并行分布數(shù)據(jù)挖掘算法的研究與開發(fā)。數(shù)據(jù)挖掘算法的可擴(kuò)展性表現(xiàn)在數(shù)據(jù)挖掘的運(yùn)行時(shí)間與所處理的數(shù)據(jù)規(guī)模呈線性關(guān)系。在假設(shè)數(shù)據(jù)挖掘系統(tǒng)可利用的存儲(chǔ)資源不變的情況下,這意味著當(dāng)被挖掘數(shù)據(jù)的規(guī)模確定后,相應(yīng)數(shù)據(jù)挖掘算法的運(yùn)行時(shí)間應(yīng)該是可以預(yù)測(cè)和接受的,即我們需要使用計(jì)算速度快的數(shù)據(jù)挖掘算法。同時(shí),醫(yī)療數(shù)據(jù)庫(kù)的類型較多,并且是動(dòng)態(tài)變化的,要求數(shù)據(jù)挖掘算法具有一定的容錯(cuò)性和健壯性。

此外,數(shù)據(jù)挖掘算法需要具有可解釋性。目前以深度學(xué)習(xí)為核心的機(jī)器學(xué)習(xí)方法在疾病的預(yù)測(cè)、診療方面有比較好的效果,然而,這些機(jī)器學(xué)習(xí)方法的可解釋性比較差,難以被醫(yī)學(xué)領(lǐng)域的科研工作者認(rèn)可。

2、醫(yī)學(xué)知識(shí)的準(zhǔn)確率與可靠性

醫(yī)療大數(shù)據(jù)挖掘過程中需要反復(fù)和醫(yī)學(xué)、藥學(xué)專家,或者已有的知識(shí)進(jìn)行交互。醫(yī)療大數(shù)據(jù)挖掘的主要目的是為醫(yī)療活動(dòng)和管理提供科學(xué)的決策,因此必須保證挖掘出的知識(shí)具有較高的準(zhǔn)確率和可靠性。首先,根據(jù)自定義的度量標(biāo)準(zhǔn)進(jìn)行度量,識(shí)別真正需要的模式。數(shù)據(jù)挖掘系統(tǒng)具有產(chǎn)生數(shù)以千計(jì)甚至數(shù)以萬計(jì)的模式或規(guī)則的潛力,這就需要從中篩選出真正感興趣的、真正有用的知識(shí)。其次,通過一些機(jī)器篩選之后,最后的決策是要由人來提供的。因?yàn)閷?duì)于知識(shí)可用性的理解是非常主觀的,且是以生命健康作為代價(jià)的,所以在醫(yī)學(xué)領(lǐng)域進(jìn)行知識(shí)發(fā)現(xiàn)需要經(jīng)驗(yàn)豐富的專家來做最后的決策。同時(shí),數(shù)據(jù)挖掘結(jié)果的表達(dá)與可視化也是重點(diǎn)。醫(yī)療大數(shù)據(jù)挖掘應(yīng)該能夠用高水平語言、可視化表示或其他表示方式來描述所挖掘出的知識(shí),以使醫(yī)生以及患者更加容易地理解和應(yīng)用所挖掘出的知識(shí)。數(shù)據(jù)挖掘結(jié)果的可視化表示對(duì)交互式數(shù)據(jù)挖掘系統(tǒng)而言是非常重要的,同時(shí)要求系統(tǒng)采用多種表示形式,如采用表格、圖、矩陣、曲線等來描述所挖掘的結(jié)果。

3、醫(yī)療數(shù)據(jù)標(biāo)準(zhǔn)化、不同醫(yī)療信息系統(tǒng)數(shù)據(jù)庫(kù)的異構(gòu)特征

在醫(yī)學(xué)界,很多基本概念都沒有規(guī)范,例如一個(gè)簡(jiǎn)單的概念“結(jié)腸腺癌轉(zhuǎn)移到肝”都有很多的表達(dá)形式,再如有的藥物有很多別名。同時(shí),實(shí)驗(yàn)和診斷皆帶有主觀性,不同醫(yī)生的病歷文書書寫習(xí)慣具有較大差異,這些都為醫(yī)學(xué)數(shù)據(jù)的整合與知識(shí)挖掘帶來了難度。此外,不同的醫(yī)院往往采用不同的廠商、不同類型的醫(yī)療信息系統(tǒng),同時(shí)由于每天龐大的醫(yī)療業(yè)務(wù)量,從而構(gòu)成了不同的巨大的、分布的、異構(gòu)的數(shù)據(jù)庫(kù)。如何從不同數(shù)據(jù)(包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù))中挖掘出所需要的模式知識(shí)是醫(yī)療大數(shù)據(jù)挖掘研究所面臨的巨大挑戰(zhàn)之一。尤其是醫(yī)療影像等醫(yī)療數(shù)據(jù)往往是以GB甚至TB為數(shù)量級(jí)的。

另外,數(shù)據(jù)庫(kù)的關(guān)系表中所涉及的屬性或變量也可能達(dá)到成百上千的數(shù)量。這種數(shù)據(jù)的海量性和高維性使數(shù)據(jù)挖掘進(jìn)行中的模式搜索空間異常巨大,同時(shí)可能導(dǎo)致搜索出無意義模式的概率增加,因此必須從中篩選出有效和有用的規(guī)則、規(guī)律和特性。不同醫(yī)療信息系統(tǒng)造成的多源異構(gòu)醫(yī)療數(shù)據(jù)交換與融合是實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)挖掘的前提。


三、醫(yī)療大數(shù)據(jù)挖掘的模型框架設(shè)計(jì)與流程

1、醫(yī)療大數(shù)據(jù)挖掘的模型框架設(shè)計(jì)

醫(yī)療大數(shù)據(jù)挖掘的模型框架由需求層、數(shù)據(jù)層、算法層和部署層構(gòu)成。需求層主要實(shí)現(xiàn)需求理解概念化,即臨床醫(yī)生想要通過數(shù)據(jù)挖掘技術(shù)解決的臨床問題。數(shù)據(jù)層主要包含數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備,可歸納為解決數(shù)據(jù)挖掘需求需要收集和準(zhǔn)備的數(shù)據(jù)。算法層主要實(shí)施建模和評(píng)估,指通過數(shù)據(jù)挖掘方法建立模型,按數(shù)據(jù)挖掘需求識(shí)別代表知識(shí)的真正有價(jià)值的模式。部署層與需求層相對(duì)應(yīng),將數(shù)據(jù)挖掘成果形成研究報(bào)告,實(shí)際應(yīng)用或部署、推廣。需求層、數(shù)據(jù)層、算法層和部署層之間的關(guān)系如圖所示。

面對(duì)龐大的醫(yī)療大數(shù)據(jù),簡(jiǎn)單地從數(shù)據(jù)出發(fā)考慮數(shù)據(jù)挖掘問題,往往會(huì)導(dǎo)致研究方向的盲目性和研究結(jié)論與現(xiàn)實(shí)需求的偏差。需求理解可以幫助數(shù)據(jù)挖掘主體從宏觀上評(píng)估數(shù)據(jù)挖掘項(xiàng)目的可行性和必要性,減少盲目選擇,規(guī)避風(fēng)險(xiǎn),打破數(shù)據(jù)驅(qū)動(dòng)的機(jī)械性思維。需求與數(shù)據(jù)、算法對(duì)應(yīng)關(guān)系的梳理和嵌入,可以從文獻(xiàn)經(jīng)驗(yàn)角度為優(yōu)化醫(yī)療大數(shù)據(jù)挖掘路徑提供依據(jù),降低學(xué)習(xí)成本。需求驅(qū)動(dòng)與優(yōu)化的數(shù)據(jù)挖掘路徑結(jié)合,將有效地提升醫(yī)療大數(shù)據(jù)挖掘的質(zhì)量。

以疾病預(yù)后需求為例,如肺癌患者生存能力的預(yù)測(cè)是目前臨床研究的一個(gè)難題,建立肺癌患者生存率預(yù)測(cè)模型并對(duì)模型的預(yù)測(cè)能力進(jìn)行評(píng)估是臨床中亟需解決的需求。面對(duì)這一需求,臨床醫(yī)生首先可通過對(duì)肺癌患者生存能力預(yù)測(cè)研究現(xiàn)狀的分析,對(duì)數(shù)據(jù)挖掘項(xiàng)目的實(shí)施計(jì)劃、風(fēng)險(xiǎn)和受益項(xiàng)目進(jìn)行有效設(shè)計(jì),并在模型的需求層匹配“疾病預(yù)后需求”;再依據(jù)需求層和數(shù)據(jù)層的對(duì)應(yīng)關(guān)系選擇相應(yīng)的數(shù)據(jù)上傳(如肺癌患者電子病歷數(shù)據(jù)),經(jīng)過數(shù)據(jù)層的數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)處理形成初始數(shù)據(jù)集;然后根據(jù)數(shù)據(jù)層和算法層的對(duì)應(yīng)關(guān)系選擇相應(yīng)數(shù)據(jù)挖掘方法(如貝葉斯網(wǎng)絡(luò)、決策樹、支持向量機(jī)),在算法層實(shí)施建模和評(píng)估,分析數(shù)據(jù)挖掘結(jié)果的精確性;最后,在部署層形成研究報(bào)告,達(dá)到預(yù)測(cè)肺癌患者生存能力的目的。

2、醫(yī)療大數(shù)據(jù)挖掘的流程

第1步,需求理解

充分理解臨床醫(yī)生想要通過數(shù)據(jù)挖掘技術(shù)解決的臨床問題。在分析過程中,需要對(duì)數(shù)據(jù)挖掘項(xiàng)目的實(shí)施計(jì)劃、風(fēng)險(xiǎn)和受益項(xiàng)目進(jìn)行有效設(shè)計(jì),充分保證數(shù)據(jù)挖掘項(xiàng)目的穩(wěn)定性和優(yōu)勢(shì),從而為目標(biāo)優(yōu)化提供穩(wěn)定支持。

第2步,數(shù)據(jù)集成

對(duì)來自不同醫(yī)療信息系統(tǒng)的病人數(shù)據(jù)進(jìn)行數(shù)據(jù)集成,形成醫(yī)療大數(shù)據(jù)中心。數(shù)據(jù)集成是數(shù)據(jù)挖掘中經(jīng)常用到的手段,原因是需要挖掘的原始數(shù)據(jù)可能來自不同的系統(tǒng)和不同的數(shù)據(jù)源,而且數(shù)據(jù)形式、存取接口甚至數(shù)據(jù)詞典都存在差異。因此,數(shù)據(jù)集成的目的就是將各個(gè)數(shù)據(jù)源統(tǒng)一成一個(gè)準(zhǔn)確、有效、可用的數(shù)據(jù)源。數(shù)據(jù)來源包括HIS、臨床信息系統(tǒng)(Clinical Information System,CIS)、LIS、RIS、PACS和病案系統(tǒng)等系統(tǒng)。這些系統(tǒng)涉及的數(shù)據(jù)庫(kù)及數(shù)據(jù)形式都不完全相同,有SQL Server、Oracle,有文檔形式的數(shù)據(jù),還有一些半結(jié)構(gòu)化數(shù)據(jù)(如電子病歷內(nèi)容)。存取這些不同形式的數(shù)據(jù),需要利用不同的接口,比如數(shù)據(jù)庫(kù)一般采用數(shù)據(jù)庫(kù)廠家提供的數(shù)據(jù)庫(kù)接口,對(duì)文檔的存取可以用操作系統(tǒng)自帶的文件I/O接口;也有一些系統(tǒng)出于數(shù)據(jù)安全考慮,不允許直接對(duì)原始數(shù)據(jù)進(jìn)行存取,而是提供Web Service等接口。

第3步,專病庫(kù)抽?。ǘ谓◣?kù))

基于醫(yī)療大數(shù)據(jù)中心構(gòu)造面向特殊疾病的專病庫(kù),如大腸癌病例庫(kù)、心衰病例庫(kù)等。在構(gòu)建臨床專病庫(kù)時(shí),要確定符合疾病特征的病例和需要的病例字段,對(duì)于結(jié)構(gòu)化字段,需要從原始的電子病歷庫(kù)中抽取,例如年齡與性別;對(duì)于半結(jié)構(gòu)化或非結(jié)構(gòu)化字段,需要使用文本抽取等技術(shù),結(jié)合知識(shí)庫(kù)對(duì)其進(jìn)行結(jié)構(gòu)化。在這個(gè)過程中,需要建立知識(shí)圖譜,以方便自動(dòng)化的病例數(shù)據(jù)抽取。

第4步,數(shù)據(jù)質(zhì)量(可用性)評(píng)估

需要對(duì)專病庫(kù)進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估,評(píng)估其是否適用于挖掘。評(píng)估指標(biāo)包括數(shù)據(jù)完整性、數(shù)據(jù)一致性、醫(yī)療實(shí)體及其編碼的一致性、數(shù)據(jù)邏輯性等。若專病庫(kù)達(dá)到評(píng)估要求,即可進(jìn)行第5步的建模;如果不能,則需要回到前面步驟,重新抽取和整理數(shù)據(jù)。

第5步,建模

選擇合適的模型,設(shè)計(jì)并實(shí)施實(shí)驗(yàn)。在建模過程中要對(duì)多種多樣的建模方法進(jìn)行認(rèn)真甄選、合理使用,通過構(gòu)建、評(píng)估模型并校準(zhǔn)參數(shù)使其成為最佳模型。比較典型的做法是運(yùn)用多種建模方法對(duì)同一數(shù)據(jù)挖掘的問題進(jìn)行分析。如果實(shí)驗(yàn)過程中出現(xiàn)問題,可能需要改進(jìn)算法;也有可能是數(shù)據(jù)質(zhì)量的緣故,需要回到前面步驟,重新抽取和整理數(shù)據(jù)。

第6步,評(píng)估與部署

在評(píng)估過程中要充分考慮數(shù)據(jù)的分析角度。此階段已構(gòu)建了一個(gè)或多個(gè)優(yōu)質(zhì)模型,在應(yīng)用最終模型前要對(duì)模型進(jìn)行嚴(yán)苛的評(píng)估,不可忽視模型構(gòu)建過程中的每一步,以保證已構(gòu)建的模型能夠達(dá)到預(yù)期目的。部署實(shí)際上是將建模過程及得到的最終結(jié)果以文字的形式呈現(xiàn)出來。建模不是項(xiàng)目的最終目的。建模的目的是收集更多相關(guān)的信息數(shù)據(jù),并以醫(yī)療健康領(lǐng)域相關(guān)人員能夠使用的方式組織和呈現(xiàn)這些數(shù)據(jù),保證需求目標(biāo)的有效實(shí)現(xiàn)。

整體來看,數(shù)據(jù)挖掘是從確定臨床需求開始,然后根據(jù)需求集成數(shù)據(jù)或整合專病庫(kù),過濾數(shù)據(jù),選擇合適的數(shù)據(jù)挖掘方法,最終滿足需求,并將模型推廣和應(yīng)用的過程。醫(yī)療大數(shù)據(jù)挖掘的整體流程如圖所示。

四、醫(yī)療大數(shù)據(jù)挖掘的應(yīng)用

1、在疾病診療中的應(yīng)用

醫(yī)療大數(shù)據(jù)挖掘在疾病診療方面的應(yīng)用主要為疾病早期診斷、臨床決策支持、診療用藥等。在疾病早期診斷方面,例如加拿大安大略理工大學(xué)的卡羅琳·麥格雷戈(Carolyn McGregor)博士及其研究隊(duì)伍與IBM公司合作,采用軟件來監(jiān)測(cè)并處理即時(shí)的患者信息,實(shí)施對(duì)早產(chǎn)嬰兒的病情診斷,在明顯感染癥狀出現(xiàn)的24小時(shí)之前,系統(tǒng)就能監(jiān)測(cè)到早產(chǎn)嬰兒身體發(fā)出的感染信號(hào)。在臨床決策支持方面,通過對(duì)患者體征、費(fèi)用和療效等數(shù)據(jù)進(jìn)行挖掘,幫助醫(yī)生確定最有效和最具有成本效益的治療方法?;诖髷?shù)據(jù)的臨床決策支持系統(tǒng)可有效擴(kuò)展臨床醫(yī)生的知識(shí)、減少人為疏忽,幫助醫(yī)生提高工作效率和診療質(zhì)量。紀(jì)念斯隆-凱特琳癌癥中心和沃森超級(jí)計(jì)算機(jī)合作,利用60萬份醫(yī)療數(shù)據(jù)、150萬條患者記錄以及腫瘤研究領(lǐng)域中42種醫(yī)療雜志和臨床試驗(yàn)的200萬頁文本數(shù)據(jù),研發(fā)出一種治療決策工具。利用大數(shù)據(jù)挖掘,沃森可以現(xiàn)場(chǎng)為醫(yī)療工作者提供治療建議,與沃森一起工作的護(hù)士,有約90%的采納了其建議。在診療用藥方面,通過大數(shù)據(jù)的挖掘與分析能夠有效減少藥物的副作用發(fā)生,提高藥物對(duì)患者疾病的治療質(zhì)量,減少臨床不合理用藥對(duì)患者的傷害,同時(shí)降低藥物的費(fèi)用、節(jié)省藥物資源。

2、在生物信息學(xué)中的應(yīng)用

人類基因組計(jì)劃的啟動(dòng)和實(shí)施,使核酸、蛋白質(zhì)數(shù)據(jù)迅速增長(zhǎng),將海量的生物信息數(shù)據(jù)利用起來,探索生物信息中的規(guī)律,對(duì)人類基因組進(jìn)行更深入的研究,為人類戰(zhàn)勝疾病提供參考。區(qū)分DNA序列上的外顯子和內(nèi)含子成為基因工程中對(duì)基因進(jìn)行識(shí)別和鑒定的關(guān)鍵環(huán)節(jié)之一。目前已有大量研究者努力對(duì)DNA數(shù)據(jù)進(jìn)行定量挖掘,從已經(jīng)存在的基因數(shù)據(jù)庫(kù)中得到導(dǎo)致各種疾病的特定基因序列模式。此外,大數(shù)據(jù)挖掘技術(shù)還能將系統(tǒng)生物學(xué)數(shù)據(jù)(如基因、蛋白質(zhì)、生物小分子的相關(guān)數(shù)據(jù))和電子健康病歷數(shù)據(jù)相結(jié)合,使基因測(cè)序、個(gè)性化藥物及個(gè)人健康管理等個(gè)性化醫(yī)療變成臨床實(shí)踐。例如,韓國(guó)生物醫(yī)學(xué)中心就計(jì)劃運(yùn)行國(guó)家DNA管理系統(tǒng),將DNA數(shù)據(jù)和患者醫(yī)療數(shù)據(jù)結(jié)合,為患者提供個(gè)性化的診斷和治療。通過醫(yī)療大數(shù)據(jù)挖掘技術(shù),可以從DNA序列數(shù)據(jù)出發(fā),開展DNA序列間相似的搜索和比較、基因序列相似性和基因序列功能預(yù)測(cè)性、發(fā)現(xiàn)在疾病不同階段的致病基因、致病基因的表達(dá)模式與識(shí)別等研究。

3、在流行病學(xué)中的預(yù)測(cè)

在疾病預(yù)警方面,醫(yī)療大數(shù)據(jù)挖掘可以連續(xù)整合和分析公共衛(wèi)生數(shù)據(jù),提高疾病預(yù)報(bào)和預(yù)警能力,防止疫情暴發(fā)。在2009年,谷歌公司對(duì)甲型H1N1流感暴發(fā)的預(yù)測(cè)比美國(guó)疾病控制與預(yù)防中心(Centers for Disease Control and Prevention,CDC)的早1~2周,這在當(dāng)時(shí)震驚了整個(gè)醫(yī)學(xué)界和IT領(lǐng)域的科學(xué)家,相關(guān)研究報(bào)告發(fā)表在Nature雜志上。醫(yī)療大數(shù)據(jù)挖掘可以為衛(wèi)生政策法規(guī)提供科學(xué)依據(jù),輔助衛(wèi)生部門更快地檢測(cè)出新的傳染病和疫情。公共衛(wèi)生部門可以通過覆蓋全國(guó)的患者電子病歷數(shù)據(jù)庫(kù),快速檢測(cè)傳染病,進(jìn)行全面的疫情監(jiān)測(cè),并結(jié)合醫(yī)療信息系統(tǒng),對(duì)流行病的防治以及對(duì)疾病危險(xiǎn)因素進(jìn)行篩選,從而減少傳染病感染率。在疾病預(yù)防與控制方面,醫(yī)療大數(shù)據(jù)挖掘可以使研究者更加了解疾病的影響因素。據(jù)估計(jì),只有10%~15%的健康影響因素已被醫(yī)療服務(wù)提供者所測(cè)定,剩下的85%~90%的健康影響因素,包括健康行為因素、遺傳因素、自然和社會(huì)經(jīng)濟(jì)環(huán)境因素等均未被測(cè)定。醫(yī)療大數(shù)據(jù)將傳統(tǒng)的健康數(shù)據(jù)(如醫(yī)療記錄、家族疾病史等)與其他來源的個(gè)人數(shù)據(jù)(如收入、教育、飲食習(xí)慣、娛樂方式等)聯(lián)系起來,利用挖掘技術(shù)對(duì)健康危險(xiǎn)因素進(jìn)行對(duì)比和關(guān)聯(lián)分析。通過對(duì)不同區(qū)域、人群進(jìn)行評(píng)估,遴選健康相關(guān)危險(xiǎn)因素,有助于有針對(duì)性的干預(yù)計(jì)劃的制訂,從而降低重病發(fā)病率,以促進(jìn)居民健康水平的提高。

總結(jié):醫(yī)療大數(shù)據(jù)分析在精準(zhǔn)醫(yī)療系統(tǒng)中具有廣泛的應(yīng)用前景。通過深入挖掘醫(yī)療數(shù)據(jù)中的有用信息,可以為患者提供個(gè)性化的診療方案、預(yù)測(cè)疾病風(fēng)險(xiǎn)并優(yōu)化醫(yī)療資源配置。然而,目前醫(yī)療大數(shù)據(jù)分析仍面臨數(shù)據(jù)質(zhì)量、隱私與安全以及技術(shù)與人才等方面的挑戰(zhàn)。未來,隨著技術(shù)創(chuàng)新和多學(xué)科交叉融合的推動(dòng),醫(yī)療大數(shù)據(jù)分析將在精準(zhǔn)醫(yī)療系統(tǒng)中發(fā)揮更大的作用,為醫(yī)療行業(yè)的進(jìn)步和患者福祉做出更大貢獻(xiàn)。

免責(zé)聲明:平臺(tái)轉(zhuǎn)載僅做分享,非商業(yè)用途。本文著作權(quán)歸原創(chuàng)者所有,如有侵權(quán)請(qǐng)聯(lián)系小編進(jìn)行刪除。

智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有   ICP備案號(hào):滬ICP備17004559號(hào)-5