久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 
當(dāng)前位置:首頁 > 醫(yī)療信息化

“醫(yī)院災(zāi)備新時代”——數(shù)據(jù)庫災(zāi)備運(yùn)維分析

發(fā)布時間:2024-01-16 來源: 醫(yī)信局 瀏覽量: 字號:【加大】【減小】 手機(jī)上觀看

打開手機(jī)掃描二維碼
即可在手機(jī)端查看

數(shù)據(jù)庫災(zāi)備系統(tǒng)包括:備份系統(tǒng)和容災(zāi)系統(tǒng)。兩者實現(xiàn)原理和承擔(dān)的作用是不同的。備份記錄的是數(shù)據(jù)庫一段時間的變化,用于恢復(fù)數(shù)據(jù)庫到過去的某一個時間點時的狀態(tài),應(yīng)對的場景主要是由于誤刪除、測試開發(fā)等原因需要把數(shù)據(jù)庫恢復(fù)到某一個時間點的情況。容災(zāi)系統(tǒng)對應(yīng)的是生產(chǎn)系統(tǒng)的實時或者準(zhǔn)實時映像,應(yīng)對的場景是在生產(chǎn)系統(tǒng)崩潰時及時把應(yīng)用切換到容災(zāi)系統(tǒng)上,確保生產(chǎn)系統(tǒng)的持續(xù)運(yùn)行。


維護(hù)測試環(huán)境


俗話說:“養(yǎng)兵千日,用兵一時”,為了確保在關(guān)鍵時刻能夠用備份系統(tǒng)或容災(zāi)系統(tǒng)快速恢復(fù)生產(chǎn)數(shù)據(jù)庫的正常運(yùn)行,平時必須做好足夠的演練。所以,在進(jìn)行數(shù)據(jù)庫備份和容災(zāi)系統(tǒng)建設(shè)時,建設(shè)方都會為生產(chǎn)數(shù)據(jù)庫系統(tǒng)建設(shè)一個數(shù)據(jù)庫恢復(fù)測試環(huán)境。而數(shù)據(jù)庫管理員日常的一個重要工作就是維護(hù)測試環(huán)境,并定期做數(shù)據(jù)庫恢復(fù)測試和容災(zāi)數(shù)據(jù)庫切換測試。測試系統(tǒng)維護(hù)工作主要有以下內(nèi)容:檢查災(zāi)備測試環(huán)境的存儲是否足夠,用于進(jìn)行數(shù)據(jù)庫災(zāi)備測試的環(huán)境不可能與生產(chǎn)環(huán)境一樣,其CPU處理能力和內(nèi)存可能會比生產(chǎn)系統(tǒng)要少,但其存儲系統(tǒng)的大小一定不能低于生產(chǎn)數(shù)據(jù)庫的數(shù)據(jù)文件的大??;檢查操作系統(tǒng)版本是否滿足要求,盡量保證測試環(huán)境的操作系統(tǒng)版本與生產(chǎn)環(huán)境一樣,因為這樣才能盡可能真實地模擬在真正的生產(chǎn)環(huán)境中做數(shù)據(jù)庫恢復(fù)時可能會遇到各種問題;檢查數(shù)據(jù)庫軟件版本是否滿足要求,要保證測試環(huán)境的數(shù)據(jù)庫軟件版本與生產(chǎn)環(huán)境一樣, 包括補(bǔ)丁程序;檢查測試環(huán)境的日志中是否有報錯信息,重點檢查操作系統(tǒng)和存儲系統(tǒng)的管理日志中是否有報錯信息,如果有應(yīng)該及時處理。

定期演練


數(shù)據(jù)庫備份恢復(fù)演練的最終目的是確保在將來的某個時刻,如果要進(jìn)行數(shù)據(jù)庫恢復(fù)操作時,能夠快速、準(zhǔn)確地在規(guī)定時間內(nèi)恢復(fù)整個生產(chǎn)數(shù)據(jù)庫。要不斷通過針對各種數(shù)據(jù)庫故障的恢復(fù)演練來完善數(shù)據(jù)庫恢復(fù)方案。數(shù)據(jù)庫備份恢復(fù)演練通常包括以下內(nèi)容:恢復(fù)整個數(shù)據(jù)庫,這個部分是用來檢驗整個生產(chǎn)數(shù)據(jù)庫發(fā)生不可修復(fù)的故障后,是否能夠利用數(shù)據(jù)庫備份系統(tǒng)進(jìn)行恢復(fù);恢復(fù)部分?jǐn)?shù)據(jù)文件,并且打開數(shù)據(jù)庫,這個部分主要是用來應(yīng)對部分?jǐn)?shù)據(jù)文件受到損壞,僅僅需要在生產(chǎn)數(shù)據(jù)庫上恢復(fù)部分?jǐn)?shù)據(jù)文件的情景;將數(shù)據(jù)庫恢復(fù)到過去的某個歷史時刻,然后打開數(shù)據(jù)庫,這個部分主要是用來應(yīng)對某些人為“誤操作”引起的數(shù)據(jù)丟失或修改的情景,不僅要把數(shù)據(jù)庫的數(shù)據(jù)文件恢復(fù)出來,還要利用數(shù)據(jù)庫日志文件將數(shù)據(jù)庫修復(fù)至“誤操作”之前。

在進(jìn)行數(shù)據(jù)庫恢復(fù)演練時,需要做如下記錄:記錄每個具體操作指令(包括具體的命令、參數(shù)等);記錄每個操作完成所需的時間;記錄所有操作可能遇到的各種問題以及處理方法和處理時間;記錄數(shù)據(jù)庫恢復(fù)后的檢查過程。將上述記錄整理成恢復(fù)演練技術(shù)文檔《數(shù)據(jù)庫恢復(fù)技術(shù)方案》,供下次演練時參考。這也是今后在正式生產(chǎn)環(huán)境中做數(shù)據(jù)庫恢復(fù)操作時的重要參考資料。

數(shù)據(jù)庫恢復(fù)演練的步驟如下:為不影響容災(zāi)系統(tǒng)的正常工作,可以把容災(zāi)系統(tǒng)上的數(shù)據(jù)文件拷貝一份到測試環(huán)境中,這樣,在進(jìn)行切換演練時,就無須擔(dān)心影響到容災(zāi)系統(tǒng);在測試環(huán)境中停止數(shù)據(jù)同步操作,在打開容災(zāi)數(shù)據(jù)庫前,需要停止容災(zāi)數(shù)據(jù)庫的數(shù)據(jù)同步操作;在測試環(huán)境中打開數(shù)據(jù)庫,將測試環(huán)境的數(shù)據(jù)庫打開并假設(shè)作為生產(chǎn)數(shù)據(jù)庫使用;將部分用于測試的應(yīng)用終端連接到測試環(huán)境中,將用于測試的終端應(yīng)用程序連接至測試環(huán)境的數(shù)據(jù)庫上,在測試終端上測試各種關(guān)鍵應(yīng)用;應(yīng)用開發(fā)人員根據(jù)測試的切換時間,檢查應(yīng)用程序在這個時間點之后的業(yè)務(wù)操作是否正常;清理測試環(huán)境,將測試用的數(shù)據(jù)庫從測試環(huán)境中清除;整理切換演練技術(shù)文檔,將整個切換演練過程的所有操作命令、各個步驟所需時間等記錄下來,并將其整理成《數(shù)據(jù)庫容災(zāi)切換技術(shù)方案》。


數(shù)據(jù)庫災(zāi)備系統(tǒng)日常運(yùn)維


數(shù)據(jù)庫管理員的日常工作之一就是檢查數(shù)據(jù)庫災(zāi)備系統(tǒng)的運(yùn)行是否正常。主要檢查以下幾個方面:①上次的數(shù)據(jù)庫備份是否正常完成;②上次數(shù)據(jù)庫備份所需時間是否正常;③備份系統(tǒng)的介質(zhì)是否有報錯信息;④容災(zāi)數(shù)據(jù)庫與生產(chǎn)數(shù)據(jù)庫之間的數(shù)據(jù)同步是否正常;⑤容災(zāi)端數(shù)據(jù)庫的參數(shù)是否與生產(chǎn)數(shù)據(jù)庫的參數(shù)匹配。

把檢查災(zāi)備系統(tǒng)是否正常運(yùn)行作為數(shù)據(jù)庫管理員的日常運(yùn)維工作是非常必要的。有一個非常大型的醫(yī)院HIS系統(tǒng)出現(xiàn)了硬件故障,導(dǎo)致HIS數(shù)據(jù)庫無法打開。當(dāng)用戶決定利用數(shù)據(jù)庫備份進(jìn)行恢復(fù)時,才發(fā)現(xiàn)備份系統(tǒng)早已報錯,數(shù)個星期前就已經(jīng)停止備份了。而且用戶沒有建設(shè)數(shù)據(jù)庫容災(zāi)系統(tǒng)。雖然最終打開了HIS數(shù)據(jù)庫,但是不可避免地丟失了很多數(shù)據(jù),這些數(shù)據(jù)需要手工補(bǔ)錄。

沒有不出問題的生產(chǎn)數(shù)據(jù)庫,數(shù)據(jù)庫管理員總會遇到這樣或者那樣的情況,需要修復(fù)生產(chǎn)數(shù)據(jù)庫,盡快恢復(fù)業(yè)務(wù)應(yīng)用。其實,如果具備了前面提到的《數(shù)據(jù)庫恢復(fù)技術(shù)方案》和《數(shù)據(jù)庫容災(zāi)切換技術(shù)方案》,數(shù)據(jù)庫管理員是不需要擔(dān)心的。如果生產(chǎn)數(shù)據(jù)庫真的出了非常嚴(yán)重的故障,數(shù)據(jù)庫管理員只需按照已制訂好的預(yù)案處理就行了。以下是關(guān)于數(shù)據(jù)庫恢復(fù)和數(shù)據(jù)庫容災(zāi)切換的實際操作流程:

1. 檢查生產(chǎn)環(huán)境是否滿足數(shù)據(jù)庫恢復(fù)要求。硬件環(huán)境是否完好;存儲空間是否足夠;操作系統(tǒng)是否正常;數(shù)據(jù)庫軟件是否完備;備份軟件是否正常。

2. 檢查數(shù)據(jù)庫備份情況。

3. 近期備份是否正常,確定利用哪次的數(shù)據(jù)庫備份進(jìn)行恢復(fù);備份介質(zhì)是否正常。

4. 開始恢復(fù)生產(chǎn)數(shù)據(jù)庫,根據(jù)演練情況預(yù)估恢復(fù)時間;根據(jù)演練步驟進(jìn)行數(shù)據(jù)庫恢復(fù)操作。

5. 應(yīng)用測試,測試生產(chǎn)數(shù)據(jù)庫是否可用:檢查生產(chǎn)數(shù)據(jù)是否可用;檢查是否有數(shù)據(jù)需要手工補(bǔ)錄。

6. 正式啟動生產(chǎn)數(shù)據(jù)庫和應(yīng)用程序,通知各個科室可以正式使用業(yè)務(wù)操作;現(xiàn)場觀察生產(chǎn)環(huán)境運(yùn)行情況;做一次生產(chǎn)數(shù)據(jù)庫的備份。

7. 容災(zāi)數(shù)據(jù)庫切換流程  檢查容災(zāi)數(shù)據(jù)庫環(huán)境是否正常;重點檢查容災(zāi)系統(tǒng)的數(shù)據(jù)庫參數(shù);檢查容災(zāi)環(huán)境的存儲。

8. 應(yīng)用測試,將應(yīng)用終端轉(zhuǎn)接到容災(zāi)數(shù)據(jù)庫上;檢查容災(zāi)數(shù)據(jù)庫的數(shù)據(jù)是否完備;檢查應(yīng)用的性能是否滿足要求。

9. 正式切換數(shù)據(jù)庫系統(tǒng),將所有的醫(yī)院客戶端的數(shù)據(jù)庫配置都轉(zhuǎn)接到容災(zāi)數(shù)據(jù)庫上;現(xiàn)場觀察生產(chǎn)環(huán)境運(yùn)行情況;對容災(zāi)數(shù)據(jù)庫做一次數(shù)據(jù)庫備份。

10. 修復(fù)原來的生產(chǎn)環(huán)境,將修復(fù)好的生產(chǎn)環(huán)境作為容災(zāi)端做數(shù)據(jù)同步;將修復(fù)好的生產(chǎn)環(huán)境作為容災(zāi)端,重新配置數(shù)據(jù)庫容災(zāi)系統(tǒng)。

11. 將現(xiàn)有的生產(chǎn)數(shù)據(jù)庫反向切換回修復(fù)好的生產(chǎn)環(huán)境,按照之前的步驟將數(shù)據(jù)庫從容災(zāi)端切換回生產(chǎn)端。


常見災(zāi)備系統(tǒng)運(yùn)維問題


PDCA循環(huán)(plan:計劃;do:實施;check:檢查;action:修正)是一個非常好的方法,可以用來檢查災(zāi)備運(yùn)維期間遇到的問題,然后調(diào)整災(zāi)備系統(tǒng)的策略和實施過程。需要關(guān)注以下問題:

(一)不注意檢查災(zāi)備系統(tǒng)的運(yùn)行狀態(tài)

很多情況下都是災(zāi)備系統(tǒng)早已出現(xiàn)問題,用戶在平時沒有進(jìn)行檢查。結(jié)果在真正出現(xiàn)問題后,卻發(fā)現(xiàn)災(zāi)備系統(tǒng)無法頂上。究其原因,一方面,是主觀上重視不夠,認(rèn)為災(zāi)備系統(tǒng)只要建設(shè)好了就不用管它了。另一方面,醫(yī)院信息化的人手不足,能夠應(yīng)付好平時的生產(chǎn)系統(tǒng)就很不錯了。針對醫(yī)院信息化的特點,建議使用專業(yè)的應(yīng)用監(jiān)控平臺來監(jiān)控生產(chǎn)和容災(zāi)系統(tǒng)的運(yùn)行情況,一旦出現(xiàn)問題,這類監(jiān)控平臺會主動通知系統(tǒng)管理員。

(二)不進(jìn)行數(shù)據(jù)庫恢復(fù)測試

醫(yī)院信息科的管理流程中沒有關(guān)于數(shù)據(jù)庫恢復(fù)測試的工作內(nèi)容。甚至于在建設(shè)數(shù)據(jù)庫容災(zāi)系統(tǒng)時也因為各種原因而沒有實施數(shù)據(jù)庫恢復(fù)測試,更不用說有具體的數(shù)據(jù)庫恢復(fù)技術(shù)方案了。90%以上的數(shù)據(jù)庫故障都可以在較短時間內(nèi)恢復(fù),前提是要有詳細(xì)的數(shù)據(jù)庫恢復(fù)方案。

(三)忽略容災(zāi)系統(tǒng)的硬件資源

因為資金限制,絕大多數(shù)醫(yī)院在建設(shè)容災(zāi)系統(tǒng)時,僅僅考慮了數(shù)據(jù)不丟失或少丟失,并沒有真正考慮到容災(zāi)系統(tǒng)的計算能力問題。對于三甲醫(yī)院,容災(zāi)系統(tǒng)的計算能力至少應(yīng)該是生產(chǎn)系統(tǒng)負(fù)載的110%以上。如正常的生產(chǎn)系統(tǒng)負(fù)載是50%,生產(chǎn)系統(tǒng)的CPU個數(shù)假設(shè)是10個。那么容災(zāi)系統(tǒng)的CPU個數(shù)應(yīng)該不少于:10×50%×110%=6(個)。這樣,如果容災(zāi)系統(tǒng)真正頂上作為生產(chǎn)系統(tǒng)使用,也有10%的資源空閑。

(四)不注意災(zāi)備系統(tǒng)的恢復(fù)時間和切換時間

因為平時沒有做數(shù)據(jù)庫恢復(fù)和切換演練,在真正出現(xiàn)數(shù)據(jù)庫故障時,往往給不出大致的系統(tǒng)恢復(fù)時間。這會造成決策上的失誤,沒有使用正確的方法來恢復(fù)數(shù)據(jù)庫,造成應(yīng)用系統(tǒng)長時間不能恢復(fù)正常。

(五)不注意災(zāi)備系統(tǒng)本身為生產(chǎn)環(huán)境引入的風(fēng)險

很多IT系統(tǒng)故障都是最近對系統(tǒng)做了改動,但是卻沒有注意到這些改動帶來的風(fēng)險而造成的。在建設(shè)容災(zāi)系統(tǒng)時,或多或少都會對生產(chǎn)系統(tǒng)做改動。無論這種改動多么小,都會為生產(chǎn)系統(tǒng)帶來新的風(fēng)險。在工程施工和日常運(yùn)維中涉及現(xiàn)有生產(chǎn)系統(tǒng)的更改時一定要考慮風(fēng)險分析和風(fēng)險控制。


智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有   ICP備案號:滬ICP備17004559號-5