久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 

新一代醫(yī)療大數(shù)據(jù)處理平臺“數(shù)據(jù)中臺”是什么?架構(gòu)如何利用云原生特點解決數(shù)據(jù)中臺的難點?

發(fā)布時間:2025-04-26 來源:健瀾科技 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

新一代醫(yī)療大數(shù)據(jù)處理平臺“數(shù)據(jù)中臺”是醫(yī)療行業(yè)數(shù)字化轉(zhuǎn)型的核心基礎設施,旨在通過統(tǒng)一的數(shù)據(jù)集成、治理和應用能力,打破傳統(tǒng)數(shù)據(jù)孤島,實現(xiàn)醫(yī)療數(shù)據(jù)的全生命周期管理。其核心目標是通過標準化、智能化的技術(shù)手段,構(gòu)建醫(yī)療數(shù)據(jù)的采集、存儲、治理、分析和服務的閉環(huán),支撐智慧醫(yī)院、醫(yī)保、疾控等場景的智能化應用

醫(yī)療數(shù)據(jù)中臺的架構(gòu)特點

醫(yī)療數(shù)據(jù)中臺的架構(gòu)設計通常包含以下層次:
數(shù)據(jù)集成層:支持多源異構(gòu)數(shù)據(jù)采集,兼容Hive、MySQL、Oracle等多種數(shù)據(jù)庫,并通過ETL工具實現(xiàn)數(shù)據(jù)清洗與轉(zhuǎn)換。
數(shù)據(jù)治理層:內(nèi)置數(shù)據(jù)標準、質(zhì)控規(guī)則、主索引(EMPI)等,結(jié)合可視化工具實現(xiàn)全鏈路血緣追溯與質(zhì)量監(jiān)控Dashboard。
數(shù)據(jù)服務層:通過API服務、數(shù)據(jù)編排和場景化應用(如疫情分析大屏、患者畫像平臺),將數(shù)據(jù)資產(chǎn)轉(zhuǎn)化為業(yè)務價值。
微信圖片_20250426230441.png
微信圖片_20250426230444.png
安全與合規(guī)層:依據(jù)《健康醫(yī)療數(shù)據(jù)安全指南》,實現(xiàn)敏感數(shù)據(jù)分類分級、動態(tài)脫敏及權(quán)限管理

架構(gòu)說明

基礎設施:包括內(nèi)容是基于云原生的容器管理,包括數(shù)據(jù)存儲、計算引擎、同步工具、定時任務調(diào)度等等,它是構(gòu)建上層平臺及應用的基礎。

數(shù)據(jù)集成開發(fā)平臺:包括數(shù)據(jù)探索、數(shù)據(jù)采集、數(shù)據(jù)開發(fā)、數(shù)據(jù)治理、數(shù)據(jù)服務等,使用到基礎設施中的計算引擎、定時任務與調(diào)度等。

數(shù)據(jù)資產(chǎn)運營平臺:元數(shù)據(jù)、血緣管理、搜索引擎、資產(chǎn)管理等。

數(shù)據(jù)湖:用于匯聚業(yè)務采集過來的數(shù)據(jù),需要兼容各個類型的數(shù)據(jù),存儲原始數(shù)據(jù)ODS;包括關系型、大數(shù)據(jù)、MPP、圖數(shù)據(jù)、時序數(shù)據(jù)等等,使用到基礎設施中的存儲等。

數(shù)據(jù)倉庫/數(shù)據(jù)集市:基于數(shù)據(jù)湖,加上邏輯計算做數(shù)據(jù)的二次匯聚,最終產(chǎn)生有用的一些指標、維度等數(shù)據(jù),使用到基礎設施中的計算引擎、定時任務調(diào)度、存儲等。

數(shù)據(jù)應用:基于數(shù)據(jù)倉庫/數(shù)據(jù)集市甚至是數(shù)據(jù)湖的數(shù)據(jù),做服務于具體業(yè)務的應用,比如BI報表、數(shù)據(jù)API、標簽等應用。

微信圖片_20250426230447.png
微信圖片_20250426230449.png


微信圖片_20250426230451.png
微信圖片_20250426230454.jpg

整體架構(gòu)幾乎包含數(shù)據(jù)平臺的大部分關鍵內(nèi)容,其中每一項都是一個較大的子系統(tǒng),以下挑選其中一些關鍵的點做詳細的描述:

  數(shù)據(jù)存儲

針對不同數(shù)據(jù)類型和業(yè)務特點,采用高效的存儲會比較符合實際應用。在后續(xù)針對不同行業(yè)會給出一些場景的解決方案。

   首先是數(shù)據(jù)湖,數(shù)據(jù)湖主要是存儲已有的業(yè)務數(shù)據(jù),將其1:1同步過來(當然為了無差別同步,可能會增加一些字段用于標識是否同步等信息)。一般有2種不一樣的建設模式,一種是采用一個大數(shù)據(jù)套件(hadoop+HDFS)存儲所有的數(shù)據(jù);一種是采用適合的多種數(shù)據(jù)庫兼容多個模型。前者可能需要轉(zhuǎn)換一些數(shù)據(jù),見過只是用關系型或文檔型數(shù)據(jù)庫作為數(shù)據(jù)湖,期間將不兼容的數(shù)據(jù)類型都做了一些轉(zhuǎn)換存儲。后者需要對數(shù)據(jù)同步和開發(fā)做兼容,讓上層平臺感知不到下層使用多數(shù)據(jù)庫存儲。

   其次是數(shù)據(jù)倉庫/數(shù)據(jù)集市:簡單理解數(shù)據(jù)集市是數(shù)據(jù)倉庫的一個主題,其實都是針對業(yè)務設計的維度表和事實表。一個成熟的行業(yè)如金融、醫(yī)療、工業(yè)都會有一個標準模型涵蓋主要的業(yè)務需求,而針對這個模型設計一個數(shù)據(jù)倉庫,并將其不同業(yè)務模塊分為不同數(shù)據(jù)集市是一種比較常見做法。當然,遇到不熟悉或者標準程度不夠的行業(yè),可以按照業(yè)務模塊建立一個個數(shù)據(jù)集市,再通過相通部分合并成一個數(shù)據(jù)倉庫。該部分一般會是很貼合業(yè)務,并且是一種OLAP類型的存儲加快業(yè)務實時使用,常見存儲包括MPP、elasticsearch等數(shù)據(jù)庫。數(shù)據(jù)倉庫/數(shù)據(jù)集市的數(shù)據(jù)是從數(shù)據(jù)湖提取,期間也會使用到數(shù)據(jù)同步、計算引擎、機器學習等工具對數(shù)據(jù)做二次加工。

題外話HATP:我們之所以要做數(shù)據(jù)中臺的原因其實就是業(yè)務數(shù)據(jù)模型往往比較難以滿足快速分析,也就是很早之前的OLTP和OLAP的區(qū)別。為了將業(yè)務數(shù)據(jù)做出分析價值,那么就需要將數(shù)據(jù)同步到分析性能較好的OLAP數(shù)據(jù)庫或者做實時計算,為了兼容不同數(shù)據(jù)庫之間的數(shù)據(jù)同步和開發(fā),數(shù)據(jù)中臺需要兼容多種數(shù)據(jù)采集工具。這時候會有一些新的方向,那就是HATP,開發(fā)出一種既兼容OLTP也兼容OLAP的數(shù)據(jù)庫,也是近幾年的方向。

數(shù)據(jù)采集

   數(shù)據(jù)采集其實就是需要將業(yè)務數(shù)據(jù)同步到數(shù)據(jù)湖或者數(shù)據(jù)湖同步到數(shù)據(jù)倉庫中,之所以要集中到數(shù)據(jù)湖一方面是為了不影響正常業(yè)務,一方面是為了上層應用方便管理。用于業(yè)務數(shù)據(jù)庫可能不同,為了很好兼容同步,做到離線、準實時的同步,往往需要不同的同步工具,以下列舉較為常見技術(shù):

實時同步:

1)CDC:變化數(shù)據(jù)捕獲 (Change Data Capture),這是一種幾乎秒級的準實時同步,主要原理是監(jiān)控數(shù)據(jù)庫同步日志,做到準實時同步。但是該技術(shù)一般針對關系數(shù)據(jù)庫,并且數(shù)據(jù)庫有類似log日志支持,常見有canal(mysql)、OGG(oracle)、SqlServer等??梢越Y(jié)合kafka將數(shù)據(jù)同步到消息隊列中,然后做消息消費處理到數(shù)據(jù)湖中。

2)流數(shù)據(jù)處理:針對并發(fā)量較大同時只需要保存計算結(jié)果的業(yè)務數(shù)據(jù),可采用流數(shù)據(jù)處理。常見的工具:Kafka Streaming、Spark Streaming、Flink、Storm、Heron、Pulsar等。

3)日志采集:針對日志類的采集工具,如Flume、Logstas、Fluentd等。

4)消息隊列:利用分布式系統(tǒng)之間的同步消息做消息獲取。

5)業(yè)務改造:一種在無法通過以上方式獲取到實時數(shù)據(jù)時采用通過業(yè)務改造方式將生成數(shù)據(jù)同步一份到集成平臺、消息隊列等來滿足要求。

離線同步:

1)離線數(shù)據(jù)同步相對來說較為簡單,也有現(xiàn)成工具幾乎能兼容大部分數(shù)據(jù)庫,比如DataX、kettle、Sqoop等。

數(shù)據(jù)開發(fā)

數(shù)據(jù)開發(fā)主要是數(shù)據(jù)應用的開發(fā)系統(tǒng),包括數(shù)據(jù)探索、數(shù)據(jù)查詢、機器學習、數(shù)據(jù)可視化。

1)數(shù)據(jù)探索:主要將探索數(shù)據(jù)源中的數(shù)據(jù),自動生成元數(shù)據(jù)。

2)數(shù)據(jù)分析:通過SQL程序、Spark程序等方式將數(shù)據(jù)匯總到數(shù)據(jù)倉庫中。

3)即席分析:通過可視化操作對數(shù)據(jù)做分析,如Hue、Spark NoteBook等

4)即席查詢:通過BI工具如Tableau、superset等做報表

5)算法開發(fā):利用機器學習生成模型,如Jupyter Notebook等

6)流數(shù)據(jù)處理和分析:處理流數(shù)據(jù)并將結(jié)果輸出,比如Spark Streaming、Kafka Streaming、Storm或Flink等

DataOps

  我們從架構(gòu)圖可以知道,數(shù)據(jù)流向是從業(yè)務系統(tǒng)到數(shù)據(jù)湖、數(shù)據(jù)湖到數(shù)據(jù)倉庫、數(shù)據(jù)倉庫到頂層應用,在這過程中我們可以看到利用到了一些數(shù)據(jù)采集、數(shù)據(jù)開發(fā)、模型設計等等技術(shù),對于一個非技術(shù)出生的人,面對底層各種技術(shù)工具,同時還要考慮從測試環(huán)境到預發(fā)布環(huán)境到正式環(huán)境的操作上保持一致,這個困難度可想而知,因此就會出現(xiàn)數(shù)據(jù)流水線管理。

數(shù)據(jù)流水線管理是看能否開發(fā)一個平臺,可以將數(shù)據(jù)從采集到應用過程中可視化管理,同時還可以一鍵發(fā)布到各個環(huán)境,避免出現(xiàn)人工操作的復雜度和失誤。這個系統(tǒng)需要包括:數(shù)據(jù)開發(fā)工具、調(diào)度引擎、配置庫、運營管理工具等。而這個平臺可參照的方法論就是DataOps。

DataOps:一種面向流程的自動化方法,由分析和數(shù)據(jù)團隊使用,旨在提高數(shù)據(jù)分析的質(zhì)量并縮短數(shù)據(jù)分析的周期。包含:部署、運維、治理、可用、生產(chǎn)等功能,等同于數(shù)據(jù)管理中的DevOps。一般使用到的技術(shù)包括云架構(gòu)、容器、實時和流處理、多分析引擎、集成的應用程序和數(shù)據(jù)管理、多租戶和安全性、DevOps工具。它與數(shù)據(jù)中臺的關系是為了強調(diào)提高數(shù)據(jù)分析的質(zhì)量并縮短數(shù)據(jù)分析的周期,而數(shù)據(jù)中臺是做整體數(shù)據(jù)管理,數(shù)據(jù)中臺提供數(shù)據(jù)建設目標,而DataOps提供一條可實現(xiàn)路徑。

云原生與數(shù)據(jù)中臺

數(shù)據(jù)中臺建設的一些難點,云原生方案:通過“分級多域”架構(gòu),主域統(tǒng)一管理權(quán)限和配置,從域按需部署在不同云平臺(如AWS、阿里云),實現(xiàn)數(shù)據(jù)本地化存儲與全局管控的平衡

1)數(shù)據(jù)應用能力快速復用難

2)新大數(shù)據(jù)技術(shù)無法快速落地

3)多租戶的數(shù)據(jù)安全問題

4)業(yè)務人員難以獨立完成數(shù)據(jù)分析工作

5)分布式計算和高性能難以保證

利用云原生特點解決數(shù)據(jù)中臺的難點

微服務化與敏捷開發(fā)

  • 挑戰(zhàn):醫(yī)療業(yè)務需求多樣且多變(如實時疫情監(jiān)控、動態(tài)醫(yī)保結(jié)算),傳統(tǒng)單體架構(gòu)難以快速迭代。

  • 云原生方案:采用微服務架構(gòu)將數(shù)據(jù)治理、AI模型訓練等功能模塊化,結(jié)合DevOps工具鏈實現(xiàn)持續(xù)集成與交付(CI/CD)。例如,健瀾科技的“大數(shù)據(jù)+大模型”雙中臺通過零代碼工具鏈支持快速模型訓練與應用部署,醫(yī)療數(shù)據(jù)中臺通過統(tǒng)一數(shù)據(jù)標準與全鏈路治理,支撐多院區(qū)運營決策,患者就醫(yī)體驗提升20%以上

1)以容器化發(fā)布服務,解決數(shù)據(jù)共享和復用

2)實現(xiàn)新大數(shù)據(jù)技術(shù)的云原生組件,使其標準化配置和管理,快速落地

3)利用云平臺多租戶實現(xiàn)數(shù)據(jù)中臺的數(shù)據(jù)安全

4)以容器化模式實現(xiàn)CI/CD流程,達到可快速復用和開發(fā)

5)利用云原生的可伸縮性,達到分布式計算和高性能


特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。


Copyright ? 2022 上海科雷會展服務有限公司 旗下「智慧醫(yī)療網(wǎng)」版權(quán)所有    ICP備案號:滬ICP備17004559號-5