張曉平
(河南省信息咨詢設計研究有限公司,河南 鄭州 450008)
寬帶認證鑒權系統是整個寬帶系統的基礎支撐系統,可以檢測和防止各種非法使用通信資源和業務行為,有效阻止非法注冊用戶使用電信業務資源,保證寬帶網絡安全和保障電信運營者及用戶正當權益,并提供寬帶用戶上網行為的記錄和溯源功能,為公安部門打擊各種網絡犯罪提供有效支撐。在地震、火災、洪水、颶風等眾多自然災害以及恐怖襲擊等不可預知的災難發生時,有可能導致企業信息系統的癱瘓,足以毀滅系統中的所有數據。認證鑒權系統如何能在災難中及災難后迅速恢復系統數據以保證業務不中斷將是本文要探討的主要問題。
容災的級別一般分為:數據級、應用級、業務級。
數據級容災:是指系統可以將主中心的所有數據完整地備份到災備中心,是更高級容災模式的基礎[1]。它只能保證數據的完整性,業務可能會因為災難而中斷。
應用級容災:是指在災難來臨時主要業務不中斷,但是重要的客戶數據以及計費數據可能丟失。
業務級容災:是指在災難來臨時主要業務不中斷,并且重要數據在災備中心有存儲不會丟失。
通信行業是一個特殊的行業,是與人民群眾的生活密切相關的。一方面,當災難來臨時需要保證重要上網業務不能中斷;另一方面,客戶資料和計費資料對于企業本身又是非常重要的,必須保證這些重要數據不能丟失。故寬帶認證鑒權系統的容災需要考慮業務級的容災。
寬帶認證鑒權系統對容災的需求:
①采用主中心和災備中心同時建設的雙中心模式,要求雙中心必須為異地建設;
②實現數據遠端備份,確保關鍵業務系統及其關聯系統的數據安全,保證兩中心節點間數據的完整性、可靠性和一致性;
③規避不可抗力導致的區域性災難(地震、強降雨、大范圍停電等),提供系統恢復機制,將引發的業務損失降低到可接受的程度;
④規避惡意攻擊導致的全系統癱瘓;
⑤雙中心互為熱備,正常情況下平均分攤全網的業務壓力,減小服務器超負荷運行帶來的宕機風險。
主中心部署系統所有核心業務,包括系統數據庫、Radius、認證計費服務器、業務管理、接口、統計分析等,主中心正常系統業務一切正常。
災備中心部署系統主要業務,一旦主中心系統無法運行,災備中心可提供系統主要業務,確保用戶正常上網。但是業務無法受理,統計分析、自服務等輔助業務無法使用。災備中心主要包含radius、認證計費服務器、邏輯備份服務器和數據庫服務器。
電信運營商的寬帶認證鑒權系統一般在各省集中設置一套認證鑒權系統,系統由主中心和災備中心組成,兩個中心采取異地建設模式。主中心設置在省會城市,災備中心設置在盡可能距離適中、地震烈度不能高于主中心城市的另外一個城市,兩個中心采用負荷分擔的工作模式。系統網絡鏈路采用雙向冗余,確保其安全性和可靠性。
結構采用的是三層架構,應用層、業務處理層、數據庫層。
應用層由Radius 服務器組成,主要功能是接收各種接入服務器的消息報文,對報文進行解析、預處理等,然后把標準化后的報文傳送給后面的認證計費業務層進行認證授權、計費等處理。
業務處理層由認證授權、計費等各種服務器組成,包括認證授權服務器、計費服務器等。
數據庫層由數據庫組成,存放各種用戶資料、設備資源信息和用戶清賬單等。
總體網絡結構如下圖所示:
此系統的容災部署大體可以分為三個部分:網絡容災、應用容災和數據容災。
3.3.1 網絡容災部署
所有服務器均雙上聯至內網交換機,內網交換機雙上聯至負載均衡設備,負載均衡設備上聯至接入路由器,保證內網交換機、負載均衡設備、甚至是接入路由器任何一臺出現故障時,不對業務造成任何影響。

圖1 網絡結構示意圖
在異地建立災備中心,通過光線傳輸和主中心組成一個局域網,保證一個中心網絡全部出現故障的情況下,另一個中心承載全網業務。
3.3.2 應用容災部署
每個中心部署多臺Radius 主機,負載均衡的同時互為熱備,即使在某主機宕機的情況下,不影響認證計費。
系統部署校園寬帶免認證、數據庫免認證和認證直通模式,分別在短信網關、數據庫和認證計費主機出現故障時候啟動免認證,優先保證業務的恢復。
每個中心部署2臺認證計費主機,通過Corba總線和Radius主機互通,Radius主機自動檢測,發現一臺認證計費主機故障,自動把認證計費請求轉發到另外正常的主機。
數據庫安裝相應軟件,實時檢測Oracle 實例的運行情況,當主機Oracle實例無法響應請求,軟件自動切換實例到備機。
多項業務均部署多臺主機通過負載均衡和熱備,提高系統的可靠性和安全性。
3.3.3 數據容災部署
在災備中心建設一套數據庫和存儲設備,通過磁盤陣列底層拷貝方式,把主中心數據庫信息實時拷貝到災備中心,數據差異不足兩分鐘。
主中心數據庫部署RMAN物理備份,每周日全備,其他時間段每四個小時增量備份,幾乎可以做到數據不丟失。
災備中心部署邏輯備份主機,用戶信息、設備信息、配置信息等關鍵信息,每四個小時導出一次,數據保存一個月。
用戶清單數據,除了在數據庫中保存6個月之外,還導出來放在災備中心的邏輯備份中心保存6個月。
Radius的Detail原始文件,每天通過FTP方式保存到邏輯備份主機,保存期限6個月,用于數據庫無法恢復情況下的清單回收。
3.4.1 存儲故障應對步驟
主中心的存儲作為主用存儲,保存AAA系統所有用戶信息、設備信息、Nas分組信息等,災備中心利用存儲設備本身的機制,從主中心通過光纖鏈路,底層復制,實時增量同步主中心變化的數據量。

圖2 底層復制網絡連接示意圖
若發生存儲故障,系統做以下應對步驟:
①系統啟用應急模式,只用內存庫里面的信息保持認證正常,以最短時間恢復業務;
②停止主備中心存儲底層同步;
③啟用災備中心數據庫;
④修改主備中心業務應用主機,數據庫連接改為備中心備數據庫;
⑤恢復系統正常模式。
3.4.2 數據庫故障流程
認證數據庫主機由兩臺配置一樣主機組成,兩臺主機以冷備模式運行,正常情況下,一臺主機提供所有的數據庫服務,數據庫主機運行狀況、網絡連接情況、存儲訪問情況、監聽狀態等均需要有軟件監控。
數據庫主機出現故障,系統應對步驟如下:
①第一時間檢測到主數據庫異常;
②強制停止主機數據庫主機的進程、監聽程序、浮動地址,卸載磁盤陣列;
③在備數據庫啟動浮動地址,掛在磁盤陣列,啟動進程,啟動監聽進程;
④對外提供服務。
3.4.3 應用故障流程
對外提供服務的所有關鍵應用都應采用兩臺或者多臺主機,主機通過負載均衡設備,對外提供一個公網地址,始終出于熱備狀態。負載均衡設備接收來自客戶端的請求,根據配置的主機IP和端口,按照源地址或者輪訓的方式,把請求轉發到不同的業務應用主機上。
當某臺應用主機出現故障時,系統應對步驟如下:
①發現某臺業務主機應用程序異常,停止對應的應用進程;
②應用端口釋放;
③負載均衡器實時檢測主機IP和端口狀態;
④負載均衡器發現出故障的主機應用端口不在線,業務轉發時不再往該主機轉發;
⑤應用恢復正常后,負載均衡器恢復往該主機轉發客戶請求。
3.4.4 不可預料性故障流程
兩個中心平時處于熱備狀態,正常情況下互相獨立運行,各承載相應寬帶用戶的認證計費處理,異常情況下互為備份,主機配置,每個中心可以承擔全省的認證計費請求。
當有火災、地震等不可預料的災難發生時,系統應對步驟如下:
①每臺Bras 上都按區域劃分,配置主Radius 和備Radius的公網地址;
②一個中心因為不可預知的原因發生重大故障導致網絡不可達的時候,Bras 會優先向配置的主Radius 地址發送認證計費請求,當該中心的Radius不響應,Bras則會向所配置的備中心Radius重啟發起認證計費請求;
③極端情況下,AAA系統可以啟用免認證方式,不對撥號用戶做任何校驗,直接允許接入互聯網;
④極端情況下,Bras設備啟用免認證方式,所有用戶請求不經過AAA 系統,直接由Bras 返回允許接入互聯網。
文章以電信運營商的認證計費系統為例,部署了業務級容災,并詳細說明各種情況下,系統的容災處理。對電信運營商來說,能夠保證合法用戶正常的上網業務是所有業務發展的基礎,故電信運營商的寬帶認證鑒權系統部署業務級冗災是非常必要的。更深層次地研究系統部署中各業務模塊的災備處理流程以及云災備是否可以順利地實施等問題具有非常重要的意義。
[1]王碧翠,陳雪冰,魏偉.信息容災備份技術淺談[M].上海:上海社會科學院出版社,2014.