1.數(shù)據(jù)中心容災(zāi)備份解決方案
隨著社會的發(fā)展和科技的進(jìn)步,政府日常工作越來越依賴于數(shù)據(jù)處理來進(jìn)行,政務(wù)系統(tǒng)的連續(xù)性依賴于數(shù)據(jù)中心系統(tǒng)的穩(wěn)定運(yùn)行。然而,災(zāi)難就像灰塵一樣伏擊在運(yùn)營環(huán)境周圍,政務(wù)系統(tǒng)的數(shù)據(jù)中心可能正在一個(gè)充滿風(fēng)險(xiǎn)和威脅的環(huán)境下運(yùn)行。如果不能對這些風(fēng)險(xiǎn)采取有效治理,一旦數(shù)據(jù)由于某種原因丟失,就很有可能對政府的日常工作造成嚴(yán)重的影響。如果核心數(shù)據(jù)丟失,將會使得某些核心功能陷入癱瘓,造成不可估量的損失。因此,保證政務(wù)的連續(xù)性和數(shù)據(jù)的高可靠性和可用性,已經(jīng)成為政府部門在數(shù)據(jù)中心建設(shè)中,必須要考慮的問題。
1.1災(zāi)備解決方案原則
首先,在制定容災(zāi)系統(tǒng)方案的過程中要考慮的就是容災(zāi)系統(tǒng)建設(shè)對原有業(yè)務(wù)系統(tǒng)帶來的影響。比如,采用數(shù)據(jù)復(fù)制技術(shù)對系統(tǒng)I/O帶來的延遲,應(yīng)用數(shù)據(jù)同步對日常業(yè)務(wù)處理系統(tǒng)帶來的壓力等。因此,企業(yè)要通過周密的測試和分析來規(guī)避容災(zāi)系統(tǒng)建設(shè)時(shí)帶來的這些風(fēng)險(xiǎn),以保證業(yè)務(wù)系統(tǒng)不會因容災(zāi)系統(tǒng)的建設(shè)而出現(xiàn)在處理性能上下降的問題。
第二,數(shù)據(jù)狀態(tài)要保持同步。為保證在災(zāi)難發(fā)生時(shí),業(yè)務(wù)可以成功地切換到備份中心,就必須保證容災(zāi)系統(tǒng)數(shù)據(jù)同步機(jī)制的可靠性。因此,建立可靠的數(shù)據(jù)同步校驗(yàn)機(jī)制是必須的; 同時(shí),還要考慮建立定時(shí)的、自動的數(shù)據(jù)同步核查對比機(jī)制,以檢驗(yàn)兩個(gè)中心數(shù)據(jù)的一致性,這是數(shù)據(jù)容災(zāi)工作中非常重要的一部分。
第三,容災(zāi)系統(tǒng)的日常維護(hù)工作要盡可能輕,并能承擔(dān)部分業(yè)務(wù)處理和測試的工作。容災(zāi)系統(tǒng)的維護(hù)和管理是容災(zāi)切換成功的重要保證,在系統(tǒng)建設(shè)中,就必須要考慮系統(tǒng)的維護(hù)管理流程。生產(chǎn)中心任何業(yè)務(wù)處理過程的改變都必須完整地復(fù)制到備份中心; 所有新業(yè)務(wù)系統(tǒng)上線時(shí),必須通知備份中心,并在備份中心配置好數(shù)據(jù)同步機(jī)制; 對原程序的改動也必須保證兩個(gè)中心同時(shí)上線。
第四,系統(tǒng)恢復(fù)時(shí)間要盡可能短。容災(zāi)系統(tǒng)主要是為了實(shí)現(xiàn)在主中心系統(tǒng)發(fā)生災(zāi)難時(shí),可以在規(guī)定時(shí)間切換到備份中心,保證數(shù)據(jù)不會丟失,并且繼續(xù)向用戶提供服務(wù)。但往往在災(zāi)難發(fā)生時(shí),主要技術(shù)人員不能及時(shí)到達(dá)現(xiàn)場,為了順利實(shí)現(xiàn)系統(tǒng)間的切換,應(yīng)該讓系統(tǒng)切換操作盡可能地簡單; 并建立固定化的、標(biāo)準(zhǔn)化的切換流程,要求維護(hù)人員在切換演習(xí)時(shí)嚴(yán)格按照流程的指導(dǎo)步驟進(jìn)行操作。
第五,可實(shí)現(xiàn)部分業(yè)務(wù)子系統(tǒng)的切換和回切。當(dāng)人事變動、業(yè)務(wù)變化、IT設(shè)施變化以及其他可能引起恢復(fù)規(guī)劃文檔失效的變化發(fā)生時(shí),應(yīng)及時(shí)更新各恢復(fù)規(guī)劃文檔,并在必要時(shí)啟動模擬測試或演習(xí),確保業(yè)務(wù)連續(xù)性系統(tǒng)的工作能力。
第六,技術(shù)方案選擇要遵循成熟穩(wěn)定、高可靠性、可擴(kuò)展性、透明性的原則。目前,國際上比較成熟的容災(zāi)技術(shù)包括: SAN/NAS技術(shù)、遠(yuǎn)程鏡像技術(shù)、虛擬存儲、基于IP的SAN互連技術(shù)以及快照技術(shù)等。其中基于IP的SAN遠(yuǎn)程數(shù)據(jù)容災(zāi)備份技術(shù)應(yīng)用比較廣泛,其是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過現(xiàn)有的TCP/IP網(wǎng)絡(luò),遠(yuǎn)程復(fù)制到備份中心的SAN中的。當(dāng)備份中心存儲的數(shù)據(jù)量過大時(shí),可利用快照技術(shù)將其備份到磁帶庫或光盤庫。這種基于IP的SAN遠(yuǎn)程容災(zāi)備份,可以跨越LAN、MAN和WAN,成本低、可擴(kuò)展性好。基于IP的互連協(xié)議主要包括FCIP、iFCP、InfiniBand、iSCSI等。
第七,構(gòu)建系統(tǒng)方案可以選擇多種技術(shù)組合方式。目前,業(yè)內(nèi)應(yīng)用較多的容災(zāi)方案是基于智能存儲系統(tǒng)的遠(yuǎn)程數(shù)據(jù)復(fù)制技術(shù),它是由智能存儲系統(tǒng)自身實(shí)現(xiàn)的數(shù)據(jù)遠(yuǎn)程復(fù)制和同步,即智能存儲系統(tǒng)將對該系統(tǒng)中的存儲器I/O操作請求復(fù)制到遠(yuǎn)端的存儲系統(tǒng)中并執(zhí)行。由于在這種方式下,數(shù)據(jù)復(fù)制軟件運(yùn)行在存儲系統(tǒng)內(nèi),因此較容易實(shí)現(xiàn)主中心和容災(zāi)備份中心的操作系統(tǒng)、數(shù)據(jù)庫、系統(tǒng)庫和目錄的實(shí)時(shí)拷貝及維護(hù)能力,且不會影響主中心主機(jī)系統(tǒng)的性能。如果在系統(tǒng)恢復(fù)場具備了實(shí)時(shí)數(shù)據(jù),那么就可以做到在災(zāi)難發(fā)生時(shí),及時(shí)開始應(yīng)用處理過程的恢復(fù)。但這種方案也有開放性差(不同廠家的存儲設(shè)備系統(tǒng)一般不能配合使用)、對于主、備中心之間的網(wǎng)絡(luò)條件(穩(wěn)定性、帶寬、鏈路空間距離)要求較苛刻等缺點(diǎn)。
1.2災(zāi)備解決方案設(shè)計(jì)需要考慮的因素
1.2.1 RTO和RPO
RTO(RecoveryTime Object):是指災(zāi)難發(fā)生后,從IT系統(tǒng)宕機(jī)導(dǎo)致業(yè)務(wù)停頓之刻開始,到IT系統(tǒng)恢復(fù)至可以支持各部門運(yùn)作,業(yè)務(wù)恢復(fù)運(yùn)營之時(shí),此兩點(diǎn)之間的時(shí)間段成為RTO。RTO是反映業(yè)務(wù)恢復(fù)及時(shí)性的指標(biāo),表示業(yè)務(wù)從中斷到回復(fù)正常所需要的時(shí)間。RTO值越小,代表容災(zāi)系統(tǒng)的數(shù)據(jù)恢復(fù)能力越強(qiáng)。各種容災(zāi)解決方案的RTO有較大差別,基于光通道技術(shù)的同步數(shù)據(jù)復(fù)制,配合異地備用的業(yè)務(wù)系統(tǒng)和跨業(yè)務(wù)中心與備份中心的高可用管理,這種容災(zāi)解決方案具有最小的RTO。
RPO(Recovery Point Objective),是指從系統(tǒng)和應(yīng)用數(shù)據(jù)而言,要實(shí)現(xiàn)能夠恢復(fù)至可以支持各部門業(yè)務(wù)運(yùn)作,系統(tǒng)及生產(chǎn)數(shù)據(jù)應(yīng)恢復(fù)到怎樣的更新程度。RPO是反映恢復(fù)數(shù)據(jù)完整性的指標(biāo),在同步數(shù)據(jù)復(fù)制方式下,RPO等于數(shù)據(jù)傳輸延遲的時(shí)間;在異步數(shù)據(jù)復(fù)制下,RPO基本為異步傳輸數(shù)據(jù)排隊(duì)的時(shí)間。在實(shí)際應(yīng)用中,考慮導(dǎo)數(shù)據(jù)傳輸?shù)囊蛩?,業(yè)務(wù)數(shù)據(jù)庫與容災(zāi)備份數(shù)據(jù)庫的一致性(SCN)是不同的,RPO表示業(yè)務(wù)數(shù)據(jù)庫與容災(zāi)備份數(shù)據(jù)庫SCN的時(shí)間差。發(fā)生災(zāi)難后,啟動容災(zāi)系統(tǒng)完成數(shù)據(jù)恢復(fù),RPO就是新恢復(fù)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)損失量。
設(shè)計(jì)容災(zāi)系統(tǒng)不能只看RTO和RPO,對于不同的業(yè)務(wù)系統(tǒng)和用戶特殊的要求,其它一些指標(biāo)有可能成為選擇容災(zāi)解決方案的主要因素。例如,某些地區(qū)為了防范一些特定自然災(zāi)害的風(fēng)險(xiǎn),要求容災(zāi)備份中心與業(yè)務(wù)中心保持足夠的距離,在這種情況下,容災(zāi)備份中心與業(yè)務(wù)中心的距離要求就是容災(zāi)系統(tǒng)的重要指標(biāo)。
1.2.2數(shù)據(jù)安全
數(shù)據(jù)的完整性,一致性是保證業(yè)務(wù)連續(xù)的關(guān)鍵。在本地,數(shù)據(jù)安全需要使用RAID技術(shù)來保證。在災(zāi)備方案的設(shè)計(jì)中,數(shù)據(jù)復(fù)制方案的設(shè)計(jì)是整個(gè)設(shè)計(jì)的基礎(chǔ)。目前業(yè)界主流的數(shù)據(jù)復(fù)制技術(shù)有:基于數(shù)據(jù)庫本身的復(fù)制技術(shù),基于操作系統(tǒng)的數(shù)據(jù)復(fù)制,基于虛擬存儲的復(fù)制技術(shù)和基于存儲的復(fù)制技術(shù)。在方案所用技術(shù)的選擇時(shí),應(yīng)當(dāng)根據(jù)客戶的預(yù)算,現(xiàn)場的條件,綜合來進(jìn)行考量。后續(xù)在1.6.1數(shù)據(jù)同步章節(jié),將會有這4類數(shù)據(jù)復(fù)制技術(shù)的綜合對比,可以作為選擇的參考。
1.2.3網(wǎng)絡(luò)安全
通信網(wǎng)絡(luò)是容災(zāi)系統(tǒng)的組成部分,通信線路的質(zhì)量也是容災(zāi)系統(tǒng)的性能指標(biāo)之一,其中包括網(wǎng)絡(luò)的數(shù)據(jù)傳輸帶寬、網(wǎng)絡(luò)傳輸通道的冗余和網(wǎng)絡(luò)服務(wù)商的服務(wù)水平(網(wǎng)絡(luò)年中斷率)。如果容災(zāi)系統(tǒng)使用的通信網(wǎng)絡(luò)是確定的,為了比較不同容災(zāi)解決方案,可以用單位存儲容量的數(shù)據(jù)庫在同一通信網(wǎng)絡(luò)上的數(shù)據(jù)完全恢復(fù)時(shí)間作為一項(xiàng)設(shè)計(jì)指標(biāo)。
1.2.4業(yè)務(wù)連續(xù)性
業(yè)務(wù)連續(xù)性是災(zāi)備方案的最終目標(biāo),是方案的價(jià)值所在。為了保證業(yè)務(wù)的連續(xù),首先需要數(shù)據(jù)的連續(xù),之前我們討論了數(shù)據(jù)安全相關(guān)的內(nèi)容。其次,在數(shù)據(jù)連續(xù)的基礎(chǔ)上,出現(xiàn)災(zāi)難時(shí),系統(tǒng)需要能夠滿足(1)網(wǎng)絡(luò)切換(2)應(yīng)用切換。以此,來保證系統(tǒng)能夠順利切換到災(zāi)備地,繼續(xù)安全運(yùn)營,最大化保證客戶利益。
1.3國標(biāo)系統(tǒng)災(zāi)備等級劃分及應(yīng)對措施
國家《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988-2007)規(guī)定了六個(gè)級別的容災(zāi),下表分別針對每個(gè)級別給出了相應(yīng)的應(yīng)對措施。
1.4容災(zāi)技術(shù)分析
1.4.1備份方式
(1)冷備份
備份系統(tǒng)未安裝或未配置成與當(dāng)前使用的系統(tǒng)相同或相似的運(yùn)行環(huán)境, 應(yīng)用系統(tǒng)數(shù)據(jù)沒有及時(shí)裝入備份系統(tǒng)。一旦發(fā)生災(zāi)難,需安裝配置所需的運(yùn)行環(huán)境,用數(shù)據(jù)備份介質(zhì)(磁帶或光盤)恢復(fù)應(yīng)用數(shù)據(jù),手工逐筆或自動批量追補(bǔ)孤立數(shù)據(jù),將終端用戶通過通訊線路切換到備份系統(tǒng),恢復(fù)業(yè)務(wù)運(yùn)行。優(yōu)點(diǎn):設(shè)備投資較少,節(jié)省通信費(fèi)用,通信環(huán)境要求不高。缺點(diǎn):恢復(fù)時(shí)間較長,一般要數(shù)天至1周,數(shù)據(jù)完整性與一致性較差。
(2)溫備份
將備份系統(tǒng)已安裝配置成與當(dāng)前使用的系統(tǒng)相同或相似的系統(tǒng)和網(wǎng)絡(luò)運(yùn)行環(huán)境,安裝了應(yīng)用系統(tǒng)業(yè)務(wù)定期備份數(shù)據(jù)。一旦發(fā)生災(zāi)難,直接使用定期備份數(shù)據(jù),手工逐筆或自動批量追補(bǔ)孤立數(shù)據(jù)或?qū)⒔K端用戶通過通訊線路切換到備份系統(tǒng),恢復(fù)業(yè)務(wù)運(yùn)行。優(yōu)點(diǎn):設(shè)備投資較少,通信環(huán)境要求不高。缺點(diǎn):恢復(fù)時(shí)間長,一般要十幾個(gè)小時(shí)至數(shù)天,數(shù)據(jù)完整性與一致性較差。
(3)熱備份
備份處于聯(lián)機(jī)狀態(tài),當(dāng)前應(yīng)用系統(tǒng)通過高速通信線路將數(shù)據(jù)實(shí)時(shí)傳送到備份系統(tǒng),保持備份系統(tǒng)與當(dāng)前應(yīng)用系統(tǒng)數(shù)據(jù)的同步;也可定時(shí)在備份系統(tǒng)上恢復(fù)應(yīng)用系統(tǒng)的數(shù)據(jù)。一旦發(fā)生災(zāi)難,不用追補(bǔ)或只需追補(bǔ)很少的孤立數(shù)據(jù),備份系統(tǒng)可快速接替生產(chǎn)系統(tǒng)運(yùn)行,恢復(fù)營業(yè)。優(yōu)點(diǎn):恢復(fù)時(shí)間短,一般幾十分鐘到數(shù)小時(shí),數(shù)據(jù)完整性與一致性最好,數(shù)據(jù)丟失可能性最小。缺點(diǎn):設(shè)備投資大,通信費(fèi)用高,通信環(huán)境要求高,平時(shí)運(yùn)行管理較復(fù)雜。
在計(jì)算機(jī)服務(wù)器備份和恢復(fù)中,冷備份服務(wù)器(cold server)是在主服務(wù)器丟失的情況下才使用的備份服務(wù)器。冷備份服務(wù)器基本上只在軟件安裝和配置的情況下打開,然后關(guān)閉直到需要時(shí)再打開。
溫備份服務(wù)器(warm server)一般都是周期性開機(jī),根據(jù)主服務(wù)器內(nèi)容進(jìn)行更新,然后關(guān)機(jī)。經(jīng)常用溫備份服務(wù)器來進(jìn)行復(fù)制和鏡像操作。
熱備份服務(wù)器(hot server)時(shí)刻處于開機(jī)狀態(tài),同主機(jī)保持同步。當(dāng)主機(jī)失靈時(shí),可以隨時(shí)啟用熱備份服務(wù)器來代替。
對于關(guān)鍵的業(yè)務(wù),Primeton建議采用同城熱備+異地?zé)醾涞姆绞竭M(jìn)行部署,對于一般性的業(yè)務(wù),建議采用同城熱備+異地溫備(應(yīng)用不啟動,數(shù)據(jù)保持異步復(fù)制)的方式進(jìn)行部署。
1.4.2數(shù)據(jù)復(fù)制技術(shù)
目前數(shù)據(jù)復(fù)制技術(shù)主要有如下表所列4種,基于紅色字體部分的要求,結(jié)合客戶的需要,Primeton推薦采用基于存儲或者基于應(yīng)用程序的數(shù)據(jù)復(fù)制技術(shù)來進(jìn)行數(shù)據(jù)同步。
1.4.3重復(fù)數(shù)據(jù)刪除技術(shù)
重復(fù)數(shù)據(jù)刪除技術(shù)是指將存儲系統(tǒng)中存在的大量內(nèi)容相同的數(shù)據(jù)刪除,只保留其中一份,從而縮減存儲空間的技術(shù)。在云災(zāi)備中,該技術(shù)既能大幅減少災(zāi)備中心存儲的數(shù)據(jù)量,降低災(zāi)備中心的建設(shè)和運(yùn)維成本,又能大幅減少數(shù)據(jù)備份和恢復(fù)過程中用戶和災(zāi)備提供商間的數(shù)據(jù)傳輸量,提高備份和恢復(fù)的性能,是一項(xiàng)十分重要的技術(shù)。
隨著災(zāi)備中心的規(guī)模不斷增大,存儲的數(shù)據(jù)量和訪問量不斷增加,單一節(jié)點(diǎn)上的重復(fù)數(shù)據(jù)刪除方法已不能滿足性能和容量的需求。除上述基本重復(fù)數(shù)據(jù)刪除技術(shù)外,一些優(yōu)化和改進(jìn)技術(shù)對云災(zāi)備是至關(guān)重要的,包括高性能、可擴(kuò)展的、分布式的重復(fù)數(shù)據(jù)刪除技術(shù),以及為提高災(zāi)備中心數(shù)據(jù)可靠性的高可靠重復(fù)數(shù)據(jù)刪除技術(shù)。
1.4.4操作系統(tǒng)虛擬化技術(shù)?
除了數(shù)據(jù)級的災(zāi)備,還應(yīng)提供系統(tǒng)級的災(zāi)備。即在將數(shù)據(jù)復(fù)制到云端的同時(shí),也將受保護(hù)的應(yīng)用程序的狀態(tài)復(fù)制到云端,當(dāng)災(zāi)難發(fā)生時(shí)可以立即切換到云端的應(yīng)用程序運(yùn)行,保證業(yè)務(wù)連續(xù)性。系統(tǒng)級災(zāi)備是通過操作系統(tǒng)虛擬化和檢查點(diǎn)實(shí)現(xiàn)的。檢查點(diǎn)用來捕獲進(jìn)程某一時(shí)刻的運(yùn)行狀態(tài),從而實(shí)現(xiàn)進(jìn)程遷移。進(jìn)程遷移既可以是用戶應(yīng)用程序進(jìn)程到云災(zāi)備中心的遷移,也可以是云災(zāi)備中心內(nèi)部的虛擬機(jī)池間進(jìn)程遷移,以實(shí)現(xiàn)根據(jù)前端用戶的需求自動地調(diào)節(jié)災(zāi)備服務(wù)提供商有限的硬件與軟件資源,動態(tài)地、彈性的反應(yīng)前端業(yè)務(wù)對災(zāi)備的需求。
當(dāng)程序因故障中斷,如果不能保留其中間運(yùn)行狀態(tài),恢復(fù)后從頭運(yùn)行將會帶來極大的消耗。檢查點(diǎn)技術(shù)能夠解決這個(gè)問題。通過保留各個(gè)進(jìn)程的運(yùn)行狀態(tài),恢復(fù)時(shí)能夠復(fù)原到最近一次保留的數(shù)據(jù)映像。
傳統(tǒng)的檢查員機(jī)制是基于庫的檢查點(diǎn)機(jī)制。例如以靜態(tài)庫的形式實(shí)現(xiàn),或通過加載動態(tài)鏈接庫來追蹤程序運(yùn)行過程中的數(shù)據(jù)變化。也有一些檢查點(diǎn)機(jī)制實(shí)現(xiàn)于內(nèi)核級別甚至硬件級別。例如通過在文件系統(tǒng)層之上引入一個(gè)中間層來實(shí)現(xiàn)保留文件系統(tǒng)狀態(tài)的檢查點(diǎn)機(jī)制;或者借助Fuse內(nèi)核模塊實(shí)現(xiàn)的支持檢查點(diǎn)機(jī)制的文件系統(tǒng),通過Fuse偵測、攔截內(nèi)核級別的文件系統(tǒng)操作并將控制權(quán)傳遞給用戶,從而能夠在用戶空間對文件系統(tǒng)狀態(tài)進(jìn)行保留。
隨著操作系統(tǒng)虛擬化技術(shù)的發(fā)展,基于虛擬容器的檢查點(diǎn)技術(shù)也得到了很好的應(yīng)用。虛擬容器是通過系統(tǒng)虛擬化技術(shù)構(gòu)建出來的一個(gè)進(jìn)程運(yùn)行的較獨(dú)立的上下文環(huán)境。虛擬容器檢查點(diǎn)技術(shù)能夠有效保護(hù)容器內(nèi)運(yùn)行的應(yīng)用程序和服務(wù)而不需要對應(yīng)用進(jìn)行修改。
1.5總體架構(gòu)設(shè)計(jì)
1.5.1Primeton“兩地三中心”容災(zāi)解決方案架構(gòu)設(shè)計(jì)
結(jié)合近年國內(nèi)出現(xiàn)的大范圍自然災(zāi)害,以同城雙中心加異地災(zāi)備中心的“兩地三中心”的災(zāi)備模式也隨之出現(xiàn),這一方案兼具高可用性和災(zāi)難備份的能力。
1.5.1.1“兩地三中心”本地高可用和容災(zāi)保護(hù)策略
(1)本地保護(hù)策略:
? 本地高可用
? 本地clone
? 持續(xù)數(shù)據(jù)保護(hù)
? B2D/BVTL
? 磁帶備份
? Archive Log備份
(2)容災(zāi)保護(hù)策略
? 應(yīng)用級或者數(shù)據(jù)級容災(zāi)
? 同級容災(zāi)、降級容災(zāi)
? 同步數(shù)據(jù)保護(hù)/異步數(shù)據(jù)保護(hù)
? 容災(zāi)數(shù)據(jù)復(fù)制技術(shù)
? 主備中心運(yùn)營方式/雙主中心運(yùn)營方式/多中心運(yùn)營方式
? 短、中、遠(yuǎn)期容災(zāi)策略
1.5.1.2“兩地三中心”功能定位
同城雙中心是指在同城或鄰近城市建立兩個(gè)可獨(dú)立承擔(dān)關(guān)鍵系統(tǒng)運(yùn)行的數(shù)據(jù)中心,雙中心具備基本等同的業(yè)務(wù)處理能力并通過高速鏈路實(shí)時(shí)同步數(shù)據(jù),日常情況下可同時(shí)分擔(dān)業(yè)務(wù)及管理系統(tǒng)的運(yùn)行,并可切換運(yùn)行;災(zāi)難情況下可在基本不丟失數(shù)據(jù)的情況下進(jìn)行災(zāi)備應(yīng)急切換,保持業(yè)務(wù)連續(xù)運(yùn)行。與異地災(zāi)備模式相比較,同城雙中心具有投資成本低、建設(shè)速度快、運(yùn)維管理相對簡單、可靠性更高等優(yōu)點(diǎn)。
異地災(zāi)備中心是指在異地的城市建立一個(gè)備份的災(zāi)備中心,用于雙中心的數(shù)據(jù)備份,當(dāng)雙中心出現(xiàn)自然災(zāi)害等原因而發(fā)生故障時(shí),異地災(zāi)備中心可以用備份數(shù)據(jù)進(jìn)行業(yè)務(wù)的恢復(fù)。
1.5.1.3“兩地三中心”容災(zāi)架構(gòu)設(shè)計(jì)
邏輯架構(gòu)模型設(shè)計(jì):
物理架構(gòu)設(shè)計(jì):
方案特點(diǎn):
? 同城范圍有效保證了數(shù)據(jù)的安全性和業(yè)務(wù)連續(xù)性;
? 異地復(fù)制數(shù)據(jù)根據(jù)災(zāi)難情形,盡可能降低數(shù)據(jù)丟失機(jī)率;
? 同城雙中心為同步復(fù)制,數(shù)據(jù)實(shí)時(shí)同步,RPO=0;
? 異地?zé)o距離限制,保證數(shù)據(jù)一致性,保證了數(shù)據(jù)的有效保護(hù);
? 異地容災(zāi)帶寬要求低,先進(jìn)的復(fù)制機(jī)制提高帶寬利用率。
對于本地本級備份,應(yīng)建立在線、近線、離線等多級存儲備份系統(tǒng),充分利用先進(jìn)的備份手段和備份策略,形成完整的本地備份管理解決方案;備份的數(shù)據(jù)包括操作系統(tǒng)、數(shù)據(jù)文件以及應(yīng)用服務(wù)環(huán)境等多個(gè)方面;日常訪問的重要數(shù)據(jù)采用磁盤或者虛擬帶庫方式備份,歸檔數(shù)據(jù)和非重要數(shù)據(jù)采用磁帶庫方式備份;重要數(shù)據(jù)應(yīng)至少保證每周做一個(gè)全量備份,平時(shí)做增量備份。
對于數(shù)據(jù)級異地災(zāi)備中心,選址上,應(yīng)進(jìn)行風(fēng)險(xiǎn)分析,避免異地備份中心與主中心同時(shí)遭受同類風(fēng)險(xiǎn);網(wǎng)絡(luò)備用系統(tǒng)上,必須在核心網(wǎng)絡(luò)層面實(shí)現(xiàn)熱備,保證災(zāi)備中心區(qū)域內(nèi)通信的可靠性;數(shù)據(jù)備份系統(tǒng)上,主中心與備份中心的備份鏈路應(yīng)有冗余,并確保2小時(shí)內(nèi)將主中心的增量數(shù)據(jù)復(fù)制或備份到災(zāi)備中心;數(shù)據(jù)處理備用系統(tǒng)上,配備災(zāi)難恢復(fù)所需的全部數(shù)據(jù)處理設(shè)備,并處于就緒狀態(tài)或運(yùn)行狀態(tài),與主中心共同承擔(dān)部分核心應(yīng)用的查詢服務(wù)功能。
對于同城應(yīng)用級災(zāi)備中心,選址上,主中心與同城災(zāi)備中心距離應(yīng)小于100KM;網(wǎng)絡(luò)備用系統(tǒng)上,在核心網(wǎng)絡(luò)層面實(shí)現(xiàn)熱備,主中心與應(yīng)用級災(zāi)備中心間通過裸光纖互聯(lián)或VPLS互聯(lián),部署TRILL構(gòu)建大二層網(wǎng)絡(luò),滿足虛擬化需求;網(wǎng)絡(luò)負(fù)載均衡上,主中心網(wǎng)絡(luò)與災(zāi)備中心網(wǎng)絡(luò)的負(fù)載均衡,提高災(zāi)備網(wǎng)絡(luò)利用率與災(zāi)備網(wǎng)絡(luò)可用性,正常情況下數(shù)據(jù)流同時(shí)使用兩個(gè)中心的網(wǎng)絡(luò),主中心網(wǎng)絡(luò)出現(xiàn)故障時(shí),則全部數(shù)據(jù)流向?yàn)?zāi)備網(wǎng)絡(luò);應(yīng)用集群切換上,關(guān)鍵業(yè)務(wù)系統(tǒng)集群實(shí)現(xiàn)手動切換,主中心與同城災(zāi)備中心之間建立高可用性監(jiān)控技術(shù),實(shí)現(xiàn)災(zāi)備中心應(yīng)用服務(wù)器集群與主中心生產(chǎn)服務(wù)器集群之間的高可用性切換;云計(jì)算技術(shù)采用上,采用虛擬化技術(shù)對同城災(zāi)備中心進(jìn)行規(guī)劃建設(shè),同時(shí),根據(jù)業(yè)務(wù)關(guān)鍵程度、對性能的要求,系統(tǒng)平臺選擇不同檔次和不同平臺的主機(jī)資源池、存儲資源池。
1、數(shù)據(jù)級容災(zāi)設(shè)計(jì)
數(shù)據(jù)的復(fù)制是應(yīng)用接管的基礎(chǔ),保障數(shù)據(jù)復(fù)制的完整性和實(shí)時(shí)有效性才能使得應(yīng)用的接管有意義。數(shù)據(jù)復(fù)制主要分為4大類(1.4.2已有說明),綜合性價(jià)比和客戶自身情況,Primeton推薦可以使用如下兩類的數(shù)據(jù)復(fù)制技術(shù):
第一類,是基于磁盤陣列的復(fù)制軟件實(shí)現(xiàn),比如EMC SDRF、HDS 的TureCopy、IBM的Flash等;
第二類,是基于服務(wù)器或者應(yīng)用軟件(應(yīng)用層)實(shí)現(xiàn),比如Oracle DataGuard組件、GoldenGate數(shù)據(jù)庫復(fù)制軟件、 DSG的RealSync軟件等。
A)磁盤陣列同步有以下主要特點(diǎn):
? 可以實(shí)現(xiàn)對所有數(shù)據(jù)的災(zāi)備,支持所有的數(shù)據(jù)類型,是最全面的災(zāi)備保護(hù)方式;
? 基于存儲設(shè)備進(jìn)行災(zāi)備,可以有效的解決對數(shù)據(jù)庫服務(wù)器和各種應(yīng)用服務(wù)器的計(jì)算資源的占用問題;
? 部署簡單,無需更改原來的文件系統(tǒng)。維護(hù)也更加簡單,維護(hù)好存儲災(zāi)備系統(tǒng)就可以。
B)基于服務(wù)器或應(yīng)用軟件的災(zāi)備, 有以下特點(diǎn):
? 支持異構(gòu)平臺,開放的硬件選擇;
? 極短時(shí)間切換的熱容災(zāi);
? 容災(zāi)側(cè)數(shù)據(jù)庫也處于打開狀態(tài),可以做主地?cái)?shù)據(jù)庫的負(fù)載均衡,提升系統(tǒng)的可用性;
? 對網(wǎng)絡(luò)要求不高,低帶寬下能夠傳輸數(shù)據(jù);
2、應(yīng)用級容災(zāi)設(shè)計(jì)
應(yīng)用級災(zāi)備包括兩個(gè)方面:數(shù)據(jù)同步和應(yīng)用接管。數(shù)據(jù)同步是應(yīng)用接管的前提。在保證數(shù)據(jù)同步基礎(chǔ)上,要實(shí)現(xiàn)應(yīng)用接管,還要能實(shí)現(xiàn)災(zāi)難發(fā)生時(shí)的網(wǎng)絡(luò)切換和應(yīng)用切換。
3、網(wǎng)絡(luò)切換設(shè)計(jì)
應(yīng)用級災(zāi)備要求提供冗余的網(wǎng)絡(luò)線路和設(shè)備。正常情況下,客戶端通過生產(chǎn)中心的業(yè)務(wù)網(wǎng)絡(luò)訪問生產(chǎn)中心的應(yīng)用服務(wù)器;在發(fā)生災(zāi)難時(shí),通過網(wǎng)絡(luò)切換,客戶端能夠訪問到災(zāi)備中心的備用服務(wù)器。
目前,網(wǎng)絡(luò)切換主要有以下三種:
(1)基于IP地址的切換
生產(chǎn)中心和災(zāi)備中心主備應(yīng)用服務(wù)器的IP地址空間相同,客戶端通過唯一的IP地址訪問應(yīng)用服務(wù)器。在正常情況下,只有生產(chǎn)中心應(yīng)用服務(wù)器的IP地址處于可用狀態(tài),災(zāi)備中心的備用服務(wù)器IP地址處于禁用狀態(tài)。一旦發(fā)生災(zāi)難,管理員手工或通過腳本將災(zāi)備中心服務(wù)器的IP地址設(shè)置為可用,實(shí)現(xiàn)網(wǎng)絡(luò)訪問路徑切換。
(2)基于DNS服務(wù)器的切換
在這種方式下,所有應(yīng)用需要根據(jù)主機(jī)名來訪問,而不是直接根據(jù)主機(jī)的IP地址來訪問,從而通過域名實(shí)現(xiàn)網(wǎng)絡(luò)切換。
(3)基于負(fù)載均衡設(shè)備的切換
通過在服務(wù)器集群前端部署一臺負(fù)載均衡設(shè)備,根據(jù)已配置的均衡策略將用戶請求在服務(wù)器集群中分發(fā),為用戶提供服務(wù),并對服務(wù)器可用性進(jìn)行維護(hù)。負(fù)載均衡能夠按照一定的策略分發(fā)到指定的服務(wù)器群中的服務(wù)器或指定鏈路組的某條鏈路上,調(diào)度算法以用戶連接為粒度,并且可以采取靜態(tài)設(shè)置或動態(tài)調(diào)配的方式。負(fù)載均衡設(shè)備能夠針對各種應(yīng)用服務(wù)狀態(tài)進(jìn)行探測,收集相應(yīng)信息作為選擇服務(wù)器或鏈路的依據(jù),包括ICMP、TCP、HTTP、FTP、DNS等。通過對應(yīng)用協(xié)議的深度識別,能夠?qū)Σ煌瑯I(yè)務(wù)在主生產(chǎn)中心和災(zāi)備中心之間進(jìn)行切換。
這三種網(wǎng)絡(luò)切換方式比較如下:
在以上三種網(wǎng)絡(luò)切換方式中,基于IP地址的切換方式較簡單,實(shí)現(xiàn)成本低,但是對于擁有較多服務(wù)器的災(zāi)備中心而言,手工更改大量IP地址和網(wǎng)絡(luò)配置需要比較長時(shí)間,因此這種方式適合于只有少數(shù)應(yīng)用服務(wù)器的場合;基于DNS的切換方案,從技術(shù)上講較成熟,應(yīng)用也較多,而且能夠?qū)崿F(xiàn)網(wǎng)絡(luò)切換的全自動,但是需要增加兩臺DNS服務(wù)器的投資;而基于負(fù)載均衡的切換,需要增加負(fù)載均衡板卡,但是切換能夠精細(xì)到業(yè)務(wù)和服務(wù)內(nèi)容,因此,在大型數(shù)據(jù)中心情況下,Primeton建議采用負(fù)載均衡的方式進(jìn)行網(wǎng)絡(luò)之間的切換。
4、應(yīng)用切換設(shè)計(jì)
應(yīng)用切換是指生產(chǎn)中心由于發(fā)生災(zāi)難而癱瘓時(shí),可由災(zāi)備中心的備用服務(wù)器提供業(yè)務(wù)接管,確保業(yè)務(wù)運(yùn)行的高連續(xù)性。
實(shí)現(xiàn)應(yīng)用切換的前提條件是:
? 數(shù)據(jù)已經(jīng)從生產(chǎn)中心同步到災(zāi)備中心;
? 災(zāi)備中心配置與生產(chǎn)中心對應(yīng)的應(yīng)用軟件服務(wù)器、數(shù)據(jù)庫服務(wù)器和中間件服務(wù)器等,且運(yùn)行正常;
? 災(zāi)備中心網(wǎng)絡(luò)運(yùn)行正常或能夠?qū)崿F(xiàn)正常切換。
應(yīng)用切換技術(shù)主要有以下幾種:
(1)雙活數(shù)據(jù)庫技術(shù)
部分?jǐn)?shù)據(jù)庫復(fù)制容災(zāi)軟件,能夠?qū)崿F(xiàn)生產(chǎn)中心和災(zāi)備中心數(shù)據(jù)庫雙活,即災(zāi)備中心的備份數(shù)據(jù)庫也處于Open狀態(tài),客戶端可對災(zāi)備數(shù)據(jù)庫進(jìn)行只讀訪問(例如GoldenGate、DSG等數(shù)據(jù)庫復(fù)制軟件)。生產(chǎn)中心和災(zāi)備中心數(shù)據(jù)庫保持雙活,可提高災(zāi)備中心的資源利用率,分擔(dān)生產(chǎn)中心的業(yè)務(wù)負(fù)擔(dān),在發(fā)生災(zāi)難時(shí),自然也可以實(shí)現(xiàn)應(yīng)用和業(yè)務(wù)的接管。
這種方式的缺點(diǎn)之一是只適合于特定的數(shù)據(jù)庫應(yīng)用,不適合文件系統(tǒng)等應(yīng)用,有一定的局限性。
(2)遠(yuǎn)程集群技術(shù)
遠(yuǎn)程集群是指通過在生產(chǎn)中心和災(zāi)備中心的應(yīng)用服務(wù)器上安裝遠(yuǎn)程集群軟件(例如Veritas Storage Foundation中的GCO組件),實(shí)現(xiàn)跨廣域的多服務(wù)器狀態(tài)的監(jiān)控,當(dāng)發(fā)生災(zāi)難時(shí),實(shí)現(xiàn)應(yīng)用服務(wù)器的自動切換。主要是由廠家提供的一些容災(zāi)軟件實(shí)現(xiàn)自動切換,拉起異地的應(yīng)用和數(shù)據(jù)庫。例如,賽門鐵克的VCS,IBM的PowerHA等。
(3)手動切換方式
手動切換方式實(shí)現(xiàn)較簡單,總體成本低,適用范圍廣,而且較可靠。采用這種方式時(shí),災(zāi)備中心部署與生產(chǎn)中心相對應(yīng)的應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器,安裝相應(yīng)軟件。在正常情況下,災(zāi)備中心服務(wù)器可選擇不運(yùn)行或者處于就緒狀態(tài)但對外不可訪問;發(fā)生災(zāi)難時(shí),可在人為決策后,將災(zāi)備中心服務(wù)器啟動或恢復(fù)對外訪問,實(shí)現(xiàn)業(yè)務(wù)的快速切換。
5、網(wǎng)絡(luò)層設(shè)計(jì)
在每一個(gè)節(jié)點(diǎn),為了提高可靠性,避免單點(diǎn)故障,建議在網(wǎng)絡(luò)層采用雙網(wǎng)雙平面的設(shè)計(jì),即在交換機(jī)/路由器層均采用冗余設(shè)計(jì)。
在同城高可用環(huán)境下,在預(yù)算允許的情況下,建議數(shù)據(jù)復(fù)制采用光纖(FC)傳輸,能夠大大提升同步數(shù)據(jù)復(fù)制的效率和可靠性。
在異地災(zāi)備情況下,由于數(shù)據(jù)傳輸線路較長,采用FC傳輸代價(jià)太高,并且災(zāi)難發(fā)生也是偶然事件。綜合考慮性價(jià)比,建議采用IP傳輸。