容災項目需要注意的幾大問題
Christophe
2004/05/24
一、容災項目需要多大的投資?
其實這個問題也可以被反問為:你希望容災系統(tǒng)能達到什么效果?要想闡述清楚此問題,首先要明白兩個指標:RTO和RPO。
RTO,Recover Time Object,恢復時間指標,是指當災難發(fā)生后,生產系統(tǒng)需要多長時間能夠恢復生產,它是衡量企業(yè)在災難發(fā)生后多長時間能重新開始運轉的指標。
RPO,Recover Point Object,恢復點指標,是指災難發(fā)生后,容災系統(tǒng)能把數據恢復到災難發(fā)生前的哪一個時間點的數據,它是衡量企業(yè)在災難發(fā)生后會丟失多少生產數據的指標。
理想狀態(tài)下,我們希望RTO=0,RPO=0,即災難發(fā)生對企業(yè)生產毫無影響,既不會導致生產停頓,也不會導致生產數據丟失。從當前計算機技術水平來說,我們可以為用戶建設這種類型的容災系統(tǒng),其中最著名的例子當屬VISA和Master的結算系統(tǒng),由于這兩個銀行結算組織占據了全球銀行結算業(yè)務的重要地位,他們的結算系統(tǒng)不允許發(fā)生任何停頓和數據丟失的情況,即使在"911"這種極端情況下。但實現這樣的容災系統(tǒng)的投資巨大,它結合了存儲數據復制技術、服務器操作系統(tǒng)鏡像技術、集群技術、數據庫高可用性設計、應用系統(tǒng)高可用性設計、同步容災技術、異步容災技術、同城容災方案、異地容災方案,以及相應的管理流程和意外事件反映處理流程等詳細的規(guī)章制度,和人員配備、行政保障手段(通信、交通等),綜合在一起完成一個完整的容災方案(實際是雙生產中心或多生產中心方案,并沒有單純的容災中心)。但是這種方案的投資過于巨大,目前中國可能除了中國銀聯這種特殊性質的企業(yè)外,不會有太多的企業(yè)會去實現這個系統(tǒng)。
因此,在電信企業(yè)BSS/OSS系統(tǒng)容災系統(tǒng)建設中,投資規(guī)模為多少是合理的?如果業(yè)務部門能確認RTO/RPO指標,那技術部門選擇了合適的容災技術以及配套的管理流程就可以確定投資規(guī)模了。例如,如果業(yè)務部門確認,災難發(fā)生后,3個小時內營業(yè)廳恢復生產就可以滿足用戶需求,且營業(yè)系統(tǒng)數據不能丟失,那RTO=3小時,RPO=0,那就必須選擇基于存儲平臺數據復制技術的同步容災方案;如果業(yè)務部門確認,災難發(fā)生后,3天能恢復經營分析系統(tǒng)工作,且以前的數據丟失可以忽略不計,那RTO=3天,RPO無,那選擇ATA磁盤實現異地備份,就能滿足要求。
另外需要提的是,為了百年不遇的災難投入巨資建設一個容災中心,容災中心的設備在災難發(fā)生前不能給企業(yè)帶來效益,這是企業(yè)決策者很難接受的,因此如何合理分配投資,將容災中心建設成為第二生產中心,與生產中心成為企業(yè)支持企業(yè)正常運行的雙中心,并實現互為容災,是降低總體擁有成本(TCO,Total Cost of Ownership),提高投資回報率(ROI,Return Of Investment)的一個重要措施,應該得到企業(yè)的高度重視。
二、容災項目對生產系統(tǒng)性能的影響
容災系統(tǒng)的本質是將生產系統(tǒng)的數據以及這些數據的變化,完整地復制到容災系統(tǒng)中,并通過相關技術手段,確保容災系統(tǒng)中數據的完整性和一致性。容災系統(tǒng)對生產數據和生產數據的變化的復制操作,必然需要與完成這些操作相對應的CPU資源(存儲的CPU、或服務器的CPU)、內存資源(存儲的Cache、或服務器的RAM)、網絡資源(TCP/IP、FC或FICON),如果這些資源不能獨立分配給容災系統(tǒng)(實際上不可能獨立),則必然會影響生產系統(tǒng)的性能。
因此更準確的問題是,如何確保容災系統(tǒng)上線后,在可以實現既定的RTO/RPO指標的同時,不會影響生產系統(tǒng)的正常運行?答案是可以通過技術手段實現的。
要想實現,則必須對現有生產系統(tǒng)進行詳細的性能分析,包括系統(tǒng)I/O特性(IOPS,Respond Time,讀寫比,I/O塊大小,I/O峰值、均值,時間特性等等)、系統(tǒng)內各子系統(tǒng)業(yè)務特點、存儲空間分配、服務器CPU和RAM資源的使用狀況、SAN網絡情況(端口使用狀況、Zoning劃分狀況、端口IOPS等)、能夠使用的數據復制鏈路(FC、TCP/IP、ATM、E1/E3)以及鏈路的QoS保障等。獲得這些數據后,通過對容災系統(tǒng)I/O分布的詳細設計,將I/O均勻分布到更多的設備上,從而確保生產系統(tǒng)實現容災后,不會造成性能下降影響正常生產的情況出現。
三、容災不能替換備份
容災系統(tǒng)會完整地把生產系統(tǒng)的任何變化復制到容災端去,包括不想讓它復制的工作,比如不小心把計費系統(tǒng)內的用戶信息表刪除了,同時容災端的用戶信息表也會被完整地刪除。如果是同步容災,那容災端同時就刪除了;如果是異步容災,那容災端在數據異步復制的間隔內就會被刪除。這時就需要從備份系統(tǒng)中取出最新備份,來恢復被錯誤刪除的信息。因此容災系統(tǒng)的建設不能替代備份系統(tǒng)的建設。
反過來,建設了備份系統(tǒng),是否就不需要容災系統(tǒng)?這還要看業(yè)務部門對RTO/RPO指標的期望值,如果允許RTO=14天,RPO=1天,那備份系統(tǒng)就能滿足要求。不過,可要考慮清楚了:從磁帶上恢復50TB的數據,并要確保數據完整恢復回數據庫,是否能在2周內完成?
四、選擇什么容災技術能保證項目實施成功?
容災項目實施成功,與技術關系不大。能舉出成功案例的容災技術,則必有它的可行性。但作為一個工程師,除了考慮項目的可行性外,還要考慮項目的不可行性。任何技術的實現,都有它的制約條件。在自己的生產環(huán)境中,能否避免這些制約條件的出現?或者出現后,是否有資源可以解決它?
比如ORACLE在中國實施了一個基于DataGuard的容災方案,但在實施過程中出現了大量意想不到的問題和BUG,作為對中國電信客戶的重視,ORACLE甚至派遣R&D人員到現場編制PATCH以保證項目能實施,但這種資源,是否每個客戶都能向ORACLE索?
因此,選擇一個簡單的容災方案,并選擇一個曾經成功實施過該方案的工程團隊,才是確保容災項目實施成功的關鍵。
中國計費網(www.billingchina.com)
相關鏈接: