IMS網(wǎng)絡中基于冗余原則和機制的冗余方案
史健 劉璐 2010/07/01
隨著IMS網(wǎng)絡在國內的大規(guī)模應用,運營商在給終端用戶提供豐富多彩的IP多媒體業(yè)務的同時,也非常重視IMS網(wǎng)絡的高可用性。只有具備高可用性的IMS網(wǎng)絡才能給用戶提供更高的服務質量,同時也能相應增加運營商的業(yè)務收入。實現(xiàn)IMS網(wǎng)絡高可用性的有效方法是提供各種層面的冗余特性,本文從IMS網(wǎng)絡的各種冗余原則和機制入手,來探討IMS網(wǎng)絡的冗余方案。
IMS網(wǎng)絡中的各種冗余原則和機制
IMS網(wǎng)絡冗余指的是整個網(wǎng)絡提供的冗余功能,從圖1 IMS冗余模型中我們可以看出IMS網(wǎng)絡冗余可以分為以下5個層面:
硬件平臺冗余
提供接口、存儲介質、處理器/刀片級的冗余。愛立信IMS系統(tǒng)中使用的硬件平臺主要有TSP(Telecom Server Platform)、IS(Integrated
Site)、SUN和HP服務器,均支持硬件平臺的冗余。
對于接口來講,各種節(jié)點提供的以太網(wǎng)接口和7號信令接口都采用1+1或者N+1的冗余機制,一旦有接口出現(xiàn)故障應能實現(xiàn)自動切換并且不影響當時提供的業(yè)務。對存儲介質來講,保存數(shù)據(jù)的內存(如TSP的內存數(shù)據(jù)庫)和硬盤應采用1+1的冗余機制,如磁盤鏡像等。對處理器/刀片來講,各個硬件平臺上的處理器和刀片應能提供1+1或者N+1的冗余機制,一旦有單個處理器或刀片出現(xiàn)故障,可以實現(xiàn)自動切換并且對業(yè)務不會造成任何影響。在IS平臺中由刀片系統(tǒng)提供刀片級的1+1或N+1冗余保護。TSP平臺提供TP(Traffic
Processor)構成的“業(yè)務處理器池”來實現(xiàn)冗余,并用VIP(Virtual IP)地址代表某個應用(如HSS),而不是具體某個處理器。
站點的IP架構冗余
提供以太網(wǎng)交換機、路由器和防火墻等設備的硬件冗余,同時支持服務器負載均衡(SLB)等功能,以提高站點IP架構的可用性。
邏輯節(jié)點資源冗余
提供節(jié)點資源的冗余,如軟件資源和數(shù)據(jù)庫等。在IMS網(wǎng)絡中,各節(jié)點應采用1+1或N+1冗余機制,對于重要節(jié)點(如保存計費信息的計費網(wǎng)關、保存用戶業(yè)務處理數(shù)據(jù)的HSS等節(jié)點)應采用“主用/熱備用”的1+1冗余方式,一旦發(fā)生切換,所有重要信息如計費數(shù)據(jù)、用戶業(yè)務和狀態(tài)信息等都不會丟失。
站點冗余
包括單站點實現(xiàn)的本地冗余和多站點實現(xiàn)的異地冗余。由于各種原因造成的節(jié)點故障,可以首先使用本地冗余機制,即使用同站點內的相應備用節(jié)點,若不成功則切換到異地冗余站點相應的節(jié)點上。而對于各種自然災害(如地震、水災等)和人為災害(如恐怖襲擊)導致的整個站點故障,只能用異地冗余來提供IMS網(wǎng)絡的高可用性,即所有業(yè)務都切換到異地的備用站點上。當出現(xiàn)整個站點故障時,按照3GPP
TR 23.820(Study on IMS Restoration Procedures,Release 8)規(guī)范的描述,所有正在進行的會話都會終止并且這些會話的計費信息也會丟失,所有UE需要發(fā)起重注冊請求以便恢復相關業(yè)務,而且在此時IMS網(wǎng)絡所提供的業(yè)務主要為基本話音業(yè)務。所以在進行IMS網(wǎng)絡異地冗余的設計時,首先考慮所有與話音業(yè)務相關的節(jié)點,而其它非話音業(yè)務相關的節(jié)點,如AP(Aggregation
Proxy)、WUIGM(Web User Interface for Group and Data Management)等可以先不考慮異地冗余,進而降低IMS網(wǎng)絡的投資成本。
配置層面的冗余方案
IMS網(wǎng)絡冗余方案的設計和網(wǎng)絡配置對于提高IMS網(wǎng)絡冗余特性是十分必要的。如果IMS網(wǎng)絡中某些節(jié)點或平臺不支持1+1或N+1冗余機制,那么就必須采用特定的網(wǎng)絡設計和配置,使這些節(jié)點不會成為IMS網(wǎng)絡中的“單故障節(jié)點”而危及IMS網(wǎng)絡的高可用性。對于IMS異地冗余方案,由于某些節(jié)點可能不支持異地冗余機制,也需要采用特定的配置來避免“單故障節(jié)點”,比如通過Diameter重定向代理的配置來提供兩個目的地主機AVP,讓Diameter客戶端收到這兩個冗余的目的地主機AVP,當?shù)谝粋Diameter服務器出現(xiàn)故障,Diameter客戶端可以自動切換到第二個Diameter服務器。
IMS網(wǎng)絡的冗余機制可以有1+1和N+1等不同方式,這些冗余機制適用于硬件平臺、站點的IP架構、節(jié)點資源以及站點等IMS網(wǎng)絡冗余的不同層面。1+1和N+1的冗余機制可以通過節(jié)點的不同工作方式來實現(xiàn)。節(jié)點的工作方式主要有:主用/主用方式和主用/備用方式。
主用/主用方式:在正常情況下,用戶的業(yè)務由兩個節(jié)點以負載分擔的方式共同完成。當出現(xiàn)節(jié)點故障時,故障節(jié)點的業(yè)務可以切換到另一個節(jié)點上。
主用/備用方式:在正常情況下,用戶的業(yè)務都由主用節(jié)點來完成,備用節(jié)點上的資源與主用節(jié)點完全相同。根據(jù)備用節(jié)點與主用節(jié)點之間的數(shù)據(jù)狀態(tài)關系,備用節(jié)點的工作方式又分為熱備用(hot
standby)、暖備用(warm standby)和冷備用(cold standby)。
- 熱備用指的是備用節(jié)點具有與主用節(jié)點完全一樣的數(shù)據(jù)狀態(tài)信息,一旦主用節(jié)點故障,備用節(jié)點可以立即切換,接替故障的主用節(jié)點來提供服務,在切換過程中重要的數(shù)據(jù)如計費信息、會話的狀態(tài)信息和用戶的注冊數(shù)據(jù)等都不會丟失!
- 暖備用指的是備用節(jié)點具有與主用節(jié)點一樣的一些數(shù)據(jù)信息,但不包含狀態(tài)信息,備用節(jié)點可以立即切換,接替故障的主用節(jié)點來提供服務,切換過程中計費和會話的狀態(tài)信息會丟失,但用戶的注冊數(shù)據(jù)不會丟失。
- 冷備用指的是備用節(jié)點不具備與主用節(jié)點相同的數(shù)據(jù)狀態(tài)信息,一旦主用節(jié)點故障,備用節(jié)點可以切換,但在切換過程中計費信息、會話的狀態(tài)信息和用戶的注冊數(shù)據(jù)等都會丟失,用戶的UE必須發(fā)起重注冊才能使用IMS業(yè)務。
下面的例子具體介紹在1+1或N+1冗余機制中愛立信IMS網(wǎng)絡的切換及恢復原則——“DNS查詢與隔離”。
IMS網(wǎng)絡中的節(jié)點在完成SIP消息轉發(fā)時,DNS客戶端用目的地節(jié)點的FQDN向DNS服務器查詢,DNS服務器返回SRV響應包含兩個目的地節(jié)點的IP地址和端口號。DNS
SRV記錄決定這兩個目的地節(jié)點IP地址的優(yōu)先級與權重,通過使用DNS SRV記錄,目的地節(jié)點可以被配置成負載分擔或主/備用的工作方式。DNS客戶端將收到的SRV響應保存在緩存列表中,然后將SIP消息轉發(fā)給列表中第一個目的地節(jié)點的IP地址并啟動一個計時器,若計時器超時后仍然沒有得到任何響應,則DNS客戶端向緩存列表中的第二個目的地節(jié)點IP地址重傳該SIP消息,此時完成了切換。根據(jù)RFCs
3263(Session Initiation Protocol【SIP】:Locating SIP Servers)和RFC 2308(Negative
Caching of DNS Queries【DNS NCACHE】)的流程,DNS客戶端能夠從FQDN緩存列表中將故障目的地去除,并自動切換到列表中的下一個目的地。當目的地節(jié)點出現(xiàn)故障后,為了將故障節(jié)點隔離,DNS客戶端將該目的地的IP地址從DNS緩存列表中去除,放入隔離列表,然后啟動隔離計時器。當隔離計時器到時,故障的目的地節(jié)點IP地址會被從隔離列表中取出,重新放回到DNS緩存列表中。若此時目的地節(jié)點故障已修復,DNS客戶端將SIP消息轉發(fā)到該節(jié)點從而實現(xiàn)切換恢復,即該節(jié)點又作為先前的主用節(jié)點來處理業(yè)務。若此時目的地節(jié)點故障仍未修復,則DNS客戶端再將其IP地址從DNS緩存列表中去除,并再次放入隔離列表中,重復上述隔離操作直到目的地節(jié)點故障修復為止。
另外在愛立信IMS網(wǎng)絡中還有一種實現(xiàn)異地冗余的專用機制-Diameter多連接。TSP平臺的Diameter客戶端(如S-CSCF)與Diameter服務器(如HSS)在兩個TSP區(qū)域(Zone)之間實現(xiàn)異地冗余。Diameter客戶端可以分別使用主用和備用Diameter服務器的本地VIP地址,建立與主、備用Diameter服務器的多個Diameter連接。
正常情況下Diameter客戶端與服務器之間的所有業(yè)務都由主用的Diameter服務器處理。當主用的Diameter服務器出現(xiàn)故障,客戶端與先前的主用服務器之間連接中斷,Diameter客戶端自動建立與新的主用服務器(原來的備用服務器)之間的連接。Diameter客戶端使用基于DWR/DWA消息的心跳機制來檢測Diameter連接的狀態(tài)。在目前的Diameter協(xié)議棧中有一個切換計時器(DWR計時器的3倍時長)。最小的DWR時長為6秒,所以經過18秒可以檢測出Diameter連接中斷,Diameter服務器進行切換。HSS作為Diameter服務器,通過這種主用/熱備用的工作方式實現(xiàn)異地冗余。
IMS網(wǎng)絡中的冗余方案
IMS網(wǎng)絡中的冗余方案可以從硬件平臺、站點的IP架構、節(jié)點資源和站點冗余等多個層面進行設計,其中站點冗余又包括單站點實現(xiàn)的本地冗余和多站點實現(xiàn)的異地冗余。由于異地冗余具有容災和應對節(jié)點故障等特性,因此能夠為IMS網(wǎng)絡提供高可用性。圖2為愛立信的IMS網(wǎng)絡異地冗余方案。對于用戶組A和B來講,整個網(wǎng)絡配置成主用站點和備用站點。在正常情況下,站點1為主用站點,為用戶組A提供服務;站點2為備用站點,實現(xiàn)從主用站點的切換,同時也為用戶組B提供服務。主用站點與備用站點實現(xiàn)1+1冗余方式。在做網(wǎng)絡規(guī)劃時,考慮到站點切換,正常情況下主用與備用站點分別處理最多50%的業(yè)務。站點3為運營商的網(wǎng)管中心,包括EMA業(yè)務開通系統(tǒng)和DNS存儲服務器等。
通過配置DNS SRV記錄并給予不同優(yōu)先級和權重,可以實現(xiàn)節(jié)點間的冗余。用戶組A使用站點1為主用站點,站點2為備用站點;用戶組B使用站點2為主用站點,站點1為備用站點。
P-CSCF、S-CSCF和A-SBC采用主用/冷備用工作方式,備用節(jié)點不具備與主用節(jié)點相同的會話處理狀態(tài)信息,切換到備用節(jié)點后,計費信息、會話狀態(tài)信息和用戶注冊數(shù)據(jù)都會丟失,用戶的UE必須發(fā)起重注冊才能使用IMS業(yè)務。
SLF、I-CSCF、E-CSCF、N-SBC、DNS、MTAS、MGC和MGW采用主用/暖備用工作方式,備用節(jié)點具有與主用節(jié)點一致的數(shù)據(jù)信息,但不包括狀態(tài)信息,備用節(jié)點可以很快完成切換,但會導致計費和當前會話數(shù)據(jù)丟失。由于這些節(jié)點上不存儲用戶的注冊數(shù)據(jù),所以不需UE發(fā)起重注冊。
HSS采用主用/熱備用工作方式,正常情況下站點1的HSS為主用節(jié)點,處理所有的用戶業(yè)務,站點2的HSS為熱備用節(jié)點,它會根據(jù)主用節(jié)點送來的實時狀態(tài)信息更新相應的數(shù)據(jù)狀態(tài)。正常情況下熱備用HSS節(jié)點不處理用戶業(yè)務。只有當主用HSS出現(xiàn)節(jié)點故障,熱備用HSS完成切換后才處理所有用戶業(yè)務。在切換過程中由于熱備用HSS具有與主用HSS完全一致的數(shù)據(jù)狀態(tài),用戶注冊數(shù)據(jù)不會丟失,所以不需要用戶發(fā)起重注冊就可以繼續(xù)為所有用戶提供服務。
結束語
隨著IMS網(wǎng)絡在國內的大規(guī)模部署,IMS網(wǎng)絡的高可用性就變得尤為重要。實現(xiàn)IMS網(wǎng)絡高可用性的有效方法就是提供各種層面的冗余特性。本文從硬件平臺、站點的IP架構、邏輯節(jié)點資源和站點冗余等幾個層面分析了IMS網(wǎng)絡中的各種冗余原則和機制,解釋了節(jié)點的不同冗余工作方式,最后介紹了愛立信的IMS網(wǎng)絡異地冗余解決方案。由于篇幅所限,其中的一些細節(jié)內容,如IMS異地冗余的配置信息、發(fā)生節(jié)點故障后相應的切換和恢復流程等,未能詳盡描述。作為IMS全套培訓解決方案提供者,愛立信中國學院提供關于IMS網(wǎng)絡設計和冗余方案的培訓課程,如IMS網(wǎng)絡設計、IMS節(jié)點配置等,可以幫助大家進一步了解細節(jié)。
通信世界網(wǎng)(www.cww.net.cn)
相關閱讀: