摘要:在研究郵政11185呼叫中心系統可用性的基礎上,指出系統設計階段就著重可用性設計,提出繞過CTI的旁路設計思想和基于設備層次結構化可用性設計方法。研究結果表明,該方法有效提高了11185系統的可用性。
關鍵詞:CTI;呼叫中心;系統可用性
中圖分類號:TP305文獻標識碼:A文章編號:1009-3044(2009)27-7760-03
Analysis and Implementation of Availability for Post 11185 Call Center System
JI Ying-hua
(Hainan Post Information Technology Bureau, Haikou 570311, China)
Abstract: Based on the study of the availability for the Post 11185 Call Center System, it mainly focuses on availability in the phrase of the system design, provides the CTI bypass solution and availability implementation based on system hierarchy. The results show that these methods effectively improve the availability of the 11185 system.
Key words: CTI; Call Center; system availability
郵政11185呼叫中心是集計算機技術、網絡技術、CTI技術以及互聯網技術為一體的綜合性多媒體信息處理平臺。11185是郵政實現傳統業務和電子商務類新增值業務的重要基礎平臺。隨著11185品牌效應的日益突顯,對不間斷地為客戶提供服務的要求隨之提高,因而11185系統能7X24小時正常穩定運行,具備高可用性極其重要。
1 系統的可用性分析
1.1 系統可用性簡介
系統可用性(Availability)是信息工業界用來衡量一個信息系統提供持續服務的能力,它表示的是在給定時間內系統在特定環境中能夠滿意工作的概率。簡單地說,可用性是系統運行時間除以系統運行時間和停機時間之和所得的結果,即:可用性=系統運行時間/(系統運行時間+系統停機時間)。
對于小的問題一般不需停止整個系統,此處計算的是嚴重的失效,即那些需要恢復程序數據,重新加載程序,重新執行等情況的失效。
1.2 影響系統可用性的主要因素
在建設11185系統時,應以提高系統的可用性作為主要建設原則,在系統設計階段就予以特別關注。在設計一套完善的可用性系統之前,必須充分認識制約系統可用性的條件。經過全面分析系統,發現影響11185系統可用性的主要因素包括:
1.2.1 軟件層因素
1) 軟件缺陷:11185系統是一個計算機綜合應用平臺,軟件構成較復雜,既包括CTI、IVR、錄音等平臺軟件,也包括座席、后臺管理、工單處理等業務應用軟件。由于呼叫中心的固有特性,各類軟件之間的藕合性比較強,軟件錯誤容易產生擴散及連帶影響。比如,CTI出現軟件問題就可能導致部分座席不能登錄,或者登錄以后話路不能正常接入,造成業務處理軟件無法運行。
2) 病毒影響:由于11185后臺業務處理點PC機均使用Windows系統,一般是多業務處理臺席,多人進行操作,易遭受計算機病毒的攻擊。
另外,由于CTI、錄音等主要服務器都是Windows系統,也易受到計算病毒的影響,造成系統軟件的不穩定。
3) 人為操作失誤
11185系統中每個座席都要經過網絡、話路配置,配置若不注意會出現相互沖突現象,導致座席不能正常使用。用戶在完成業務處理過程中由于人為的操作失誤,會造成用戶與系統的交互失敗。另外,系統管理員和座席人員的誤操作也會導致部分功能的中止。
4) 監控不到位:呼叫中心系統集成諸多的軟硬件產品,需要對系統的關鍵運行數據進行監測(如 CPU、內存、硬盤容量、網絡通信、節點負載等),由于維護人員的監控不到位,往往會直接影響到系統的穩定運行。如節點負載超負荷亦會造成系統運行的不正常等。
5) 更新與升級:11185系統在建設及運行過程中,根據實際需求,會進行相關的系統變更工作(指平臺軟件的更新升級)。平臺進行系統變更時通常都會涉及到CTI、IVR,直接影響到接入話路的處理,從而影響到系統的可用性。
1.2.2 硬件層因素
呼叫中心的基本功能是實現呼叫的接續和處理,一個呼叫的接續過程涉及到不同設備的協同處理,呼叫信息的接續過程定義為呼叫路徑,呼叫路徑中的任何關鍵節點設備失效,都將導致呼叫接續的中斷。
硬件故障具有相當的不確定性,突發性強,難以控制。服務器出現硬件故障影響系統運行的現象是突然宕機,無法重新啟動。接入交換機有問題,話路無法接續,造成呼叫中斷。出現硬件故障后,帶來的后果是系統功能的中止,更嚴重的會造成系統數據的丟失。而且整個維修過程都需要一定的手續和時間,給故障恢復帶來一定的困難。
網絡關鍵設備也會有出現故障的可能,但一般情況下,網絡設備出現故障的機率比服務器小。
解決單點失效可采用完全冗余的解決方法,即所謂的2N架構,把所有可能出狀況的組件都準備兩套,確保主要組件損壞時備用組件可立即接手運作。但如果所有的關鍵設備都采用冗余方式,投資成本大,且可能出現設備閑置,此做法在實際工作中并不切實可行。
1.3 系統關鍵設備的選擇
系統關鍵設備的個數越少,系統的可用性也就越高。在選擇關鍵設備時,應對系統設備逐個分析,明確設備和系統運行之間的關系,不斷縮小范圍,最后將11185的關鍵設備確定為接入交換機、數據庫服務器、WEB服務器(11185系統后臺業務處理采用B/S結構,適用于全省聯網作業處理流程)。并沒有將呼叫中心常見的CTI服務器和IVR服務器納入關鍵設備,是因為CTI和IVR只是呼叫中心語音平臺的應用功能,實際應用中,用戶話路進入交換機后,是可以不經過CTI和IVR,直接分配到座席,從而不影響話路的接續。
1.4 系統設備的可用性層次結構
11185系統設備種類繁多,通過對系統的可用性分析,可以將11185設備分為三個層次:
1)關鍵設備:接入交換機、數據庫服務器、WEB服務器。
2)二層設備:CTI服務器、IVR服務器。
3)三層設備:錄音服務器、傳真服務器、網關PC及其它設備。
設備分層直接說明了設備的可靠性和可維護性等級,層次越高的設備,可靠性和可維護性要求自然越高,同時可用度也較高。設備分層結構為整體系統可用性的實現奠定了基礎;另一方面,11185的設備分層也有助于11185系統的故障分析和定位,對運維工作有很大的幫助。
2 系統可用性的實現
以上述分析為基礎,從可用度、成本及效能之間的平衡為出發點,結合系統的可靠性和可維性,設計出綜合提高11185可用性的方法。
2.1 提高軟件可用性設計
1)針對軟件缺陷:在系統開發過程中就采用科學的軟件工程方法,提高軟件質量,注重系統及應用軟件測試,盡量做到早發現早修改;系統運行時遺漏的缺陷可通過改正性軟件維護加以處理。系統在經過一段時間運行后,軟件缺陷將控制在一定的范圍內,通常不會出現重大軟件缺陷。
2)針對計算機病毒:防病毒措施主要包括技術和管理兩大方面:
在技術上可在系統中安裝網絡防病毒軟件,以提供對病毒的檢測、清除、免疫和對抗能力;從系統網絡整體安全防范的角度去考慮,控制網絡病毒(如蠕蟲病毒)的傳播。配置一臺服務器作為病毒防護管理控制中心,以實現網絡中防病毒軟件的統一管理和升級,確保系統中的每臺機器都運行最新版本的病毒查殺軟件。
在管理上應制定一整套有關的規章制度,提高員工計算機病毒的防范意識,加強軟件的管理,不隨便安裝和使用軟件尤其是盜版軟件,限制軟盤和優盤的使用等。
3)針對人為操作失誤:通過加強系統管理員和座席人員的培訓,建立嚴謹的運維制度,嚴格按照系統相關操作文檔進行操作,也可降低對系統的誤操作。
4)針對監控不到位:關鍵設備可靠性不可能達到100%,但通過有效的系統監控和日常維護,80%的故障隱患是可以預先發現并消除的。
關鍵設備應具備主動預警監控模塊,從而改變傳統的由維護人員被動響應故障的局面,實時對系統的運行數據進行監測,對超過預警閥值的參數進行主動預警,通過短信、呼叫等手段主動通知維護人員,以利于維護人員提前發現故障的隱患,為故障隱患的排除爭取寶貴的時間。
5)針對系統更新升級:系統在進行軟件升級前,先對數據庫和相關軟件進行備份,嚴格按照升級操作文檔進行操作,避免因升級失敗而造成數據的丟失和系統運行不正常。
2.2 關鍵設備高可用性設計
關鍵設備位于分層結構的頂層,包括接入交換機、數據庫服務器、WEB服務器。三個設備對于呼叫中心系統都構成單點失效,接入交換機有問題,話路無法接入;數據庫服務器或WEB服務器有問題,業務無法受理和處理。所以,關鍵設備的可用性是重點設計內容,可通過提高硬件規格、采用專業軟件支持、合理配置實現高可用度。
1)接入交換機:11185接入交換機是呼叫平臺的核心,為此專門選用了Avaya的Definity G3si,為電信級設備,高可用度可達到99.999%(1年的停機時間不超過5分15秒)。
為進一步確保話路暢通,還設計了備用方案B和C。方案B為利用通信機房已有的內部電話系統阿爾卡特A4400交換機作為備用交換機;方案C是建立5路備用電話線,通過發生故障時,電信局端進行設置實現號碼轉移到備用電話線上。
2)數據庫服務器:數據庫服務器采用基于SAN的雙機高可用性技術:兩臺至強服務器作為主機,一臺磁盤陣列柜作為共享存儲系統,實現RAID5。采用雙機熱備模式,當主機正常運行工作,從機處于監控準備狀態。當主機宕機時,從機接管主機的工作,待主機恢復正常后,可按自動或手動的方式將服務切換到主機上運行。
3)WEB服務器:WEB服務器采用2臺PC服務器,操作系統為Windows Advanced Server 2000,通過系統配置實現雙機集群,從而實現網絡負載平衡和單點故障轉移。
2.3 旁路CTI的軟件設計
為了使系統在出現問題時能繞過CTI和IVR,應對交換機和座席業務軟件都做專門設計配置,特別是對座席業務軟件的登錄界面增加是否連接CTI的選項,默認為連接CTI。
比如,當遇到CTI與IVR系統更新引起的中斷時,座席代表可退出座席業務軟件,并選擇不連接CTI重新登陸。這時,利用交換機的ACD功能也能將話務轉接到相應的工作組。座席代表完全可接聽用戶電話辦理業務,只不過是少了CTI的功能。從對于用戶業務的可用性而言,這種情況是可以接受的。
增加連接CTI的選項的另一個好處是方便座席業務軟件的測試。
2.4 非關鍵設備可用性設計
對于屬于非關鍵設備的服務器、座席PC等,可采用同型號配置和N+1的方法。
1)同型號配置:CTI、IVR、錄音服務器等其它二三層服務器設備采用同機配置,即采用同一品牌型號,主板、硬盤保持一致,內存可根據性能要求有所不同。
2)N+1:N+1就是增加一臺同型號配置的備用機。通過硬盤復制,使得每臺工作服務器都有復制硬盤。當工作服務器出現硬件或軟件故障時,將相應的復制硬盤插上備用機,由于所有服務器是同型號配置,可以輕易實現故障工作服務器的備機替換。
2.5 確保系統可用性的安全策略
11185系統的使用人員有座席人員、管理人員、開發人員,系統本身又要與綜合網、金融網、互聯網相聯,系統運行的外界環境較為復雜,不安全因素多,直接影響到系統的可用性。安全策略的制定是系統可用性的有利保障。
1)物理安全:物理安全主要防范各種自然災害(防火、防水、防雷擊),防范各種人為入侵及盜竊,防止擅自操作和使用設備,防止業務信息的丟失、泄露和破壞等。因此需要從基礎設施、網絡設備、故障處理、機房條件等方面為系統提供安全可靠的運行環境和條件。
2)網絡安全:綜合采用路由器ACL訪問控制技術、網絡物理隔離及VLAN等技術和手段,保障11185系統與其他系統的安全連接。對于與互聯網的連接,可采用雙層防火墻和VLAN技術。
2.6 建立故障應急預案
即使在設計上已經保證了系統的可用性,并且設置了系統運行主動預警模塊,故障的出現還是不能100%避免的。根據故障處理的指導原則,以最短的時間完成故障的處理和系統的恢復,最大限度地減少故障造成的運營損失,必須建立節點的故障應急預案,包括故障點的快速確認方法、故障數據收集、處理和恢復的詳細步驟。對于擁有良好文檔的系統,當發生故障時,診斷更快速準確,從而保證在故障處理時能夠游刃有余。
3 結束語
本文從11185系統的可用性分析出發,提出呼叫中心系統的可用性必須從系統設計階段就要開始關注,可用性不僅僅是單個設備的可用性,更要充分意識整個系統可用性的重要性。要從系統設備的相互作用、實際具體運作中去尋求提高系統的可用性方法,建立起系統設備的可用性分層結構,以實現可用度、成本及效能之間的平衡。
參考文獻:
[1] 陳勇,楊學良.基于分散式呼叫中心的管理系統的設計與實現[J].計算機工程與設計,2002,23(12):48-51.
[2] 伍芃華.多媒體呼叫中心構建與CRM 策略[M].北京:人民郵電出版社,2003.
[3] 胡延平,廖蕾,劉啟明,等.基于CTI的呼叫中心系統設計與實現[J].計算機工程與設計,2003,24(3):37-39.