曹輝標
摘 要:文章從公司實際情況出發,以現有運營系統及運營保障機制為例,介紹了如何進行穩定可靠運營系統的日常運行保障,同時通過對運營維護中關鍵技術的描述,闡述了在未來一段時間內運營維護工作的發展方向。
關鍵詞:運營系統;運維;穩定;可靠
引言
隨著公司業務的發展壯大,企業的日常運營維護工作已經越來越被重視,運營系統的可靠穩定關系著客戶使用滿意的高低。因此,打造一個穩定、可靠的運營系統是所有運營企業的核心工作,由此孕育而生的關鍵技術也越來越多,也更好的為運營系統的維護提供了技術保障。
1 定義
運營維護簡稱運維,一般是指對企業已經建立好的網絡系統軟硬件的維護以及對信息系統的維護。例如,電腦硬件、軟件維修,電話問題處理等基礎維護工作。同時也包含了對外的運營系統的維護,要保證運營系統是在正常運作的,通過各種手段,有人工的也有自動的,進行監控,出現問題及時處理解決等等。
2 運營維護
運營系統的穩定可靠是運營維護的重點工作,要對公司內部、外部使用的所有自運營系統的正常運作進行保證,保證服務器能夠正常運行,保證系統資源足夠使用,在必要時進行硬件升級,保證出問題時能夠第一時間分析解決問題,主要可以從以下幾個方面采取保證措施。
2.1 巡檢保障
運營系統由兩大部分組成,一部分是運行環境,包括網絡、硬件等資源,一部分是系統程序,包括各種應用程序以及網站等。要保證系統的穩定,就必須保證運行環境和系統程序是穩定正常的,為此可以通過日常巡檢來進行檢查保證。
每天至少對運行環境進行兩次巡檢,包括應用程序開啟、系統資源、系統事件日志、系統監控情況等等,確保運行環境是正常的。
只有環境的正常也是不夠的,還必須保證程序開啟后能夠正常提供工作,因此需要安排人員通過一些自動化程序驗證以及人工的巡檢驗證來保證應用程序能正常提供業務功能。
2.2 監控保障
為了保證系統的穩定可靠,如果僅僅是通過人為的巡檢保障是不夠的,還需要配置完備的運營監控機制,進行主動監控以及主動報警。
一般的監控系統能做到的是進行郵件和短信報警,但是如果在夜間出現問題,就很容易被忽略,因此需要一套能提供電話報警的監控系統,同時對于運營系統的各種參數需要定期進行分析,也需要一套對各種運營參數能提供詳細報表的監控系統。
監控系統一:
一套自主開發的監控系統,主要是對系統資源的使用情況以及應用程序啟用情況進行監控。
運營系統每臺服務器安裝客戶端,同時安裝一臺服務器端,客戶端將報警信息提交到服務器端,服務器端連接到報警終端,報警終端連接公司語音網關系統和短信平臺,一旦報警終端收到報警信息,將向系統負責人員發送一條報警信息,告知某某系統出現問題,同時向報警手機撥打報警電話,語音提示系統負責人查看報警信息。雙管齊下進行報警提醒,避免只有短信晚間容易讓負責人遺漏報警信息的問題。
監控系統二:
一套比較成熟的監控軟件,對系統、網絡、資源以及整體的可用性進行比較全面的監控,并產生詳細的日志,這套系統主要是通過日志用來對系統的可用性進行分析,并為系統是否需要進行優化升級等操作提供可靠的參考依據。
通過這兩套監控系統配合人為的日常巡檢,對運營系統的正常穩定運行提供了有效的保障。
2.3 可靠性、可用性保障
系統穩定可靠的運行,要考慮到各種可能出現的意外情況,例如服務器出現故障、網絡中斷或是機房無法正常工作等等,針對這些情況,必須要采取相應的措施來保證運營系統的可靠性和可用性。
目前通常都是采取如下措施:
1)數據庫本地做鏡像,在主服務器出現故障時立即切換。
2)程序本地做負載均衡,避免出現單點故障。
3)數據庫異地做日志傳送,在機房或網絡出問題時,切換到異地服務器。
4)程序異地做備份,在機房或網絡出問題時,異地啟用。
3 運營系統要求
運營系統的穩定可靠必須建立在一定的要求之上,只有滿足這些要求,才能建設一個穩定、可靠并且高效的運營系統。
3.1 性能要求
運營系統的用戶群體是企業用戶,較為集中使用時間為6:30-20:00,在高度集中使用時對于性能要求較高,內存、CPU、磁盤IO都要能滿足使用,支持高并發,保證使用速度較快,不會有過多的延遲。
3.2 擴展要求
隨著用戶量的增加,服務器、數據庫性能以及容量方面都要能夠通過較為簡單的方式實現擴容,最好是能夠在線擴容,保證服務不會中斷。同時服務要能夠支持負載均衡,以提高系統速度及可用性。
3.3 本地災備
數據實現本地鏡像,當服務器或是數據庫無法正常工作時,能夠實現本地服務的快速切換(最好是能夠做到秒級切換)。
3.4 異地災備
數據實現異地備份,當機房遇到不可抗力的自然災難導致機房整體不可用時,能夠快速的啟動異地的備用系統提供正常服務。
3.5 網絡要求
運營系統網絡必須保持7*24小時通暢,提供電信、網通、移動、教育網等主流運營商的多線接入,保證網間互聯的順暢,當出現移動終端無法登陸系統時,能夠迅速的定位并解決問題。保證運營網絡的資源使用不會被同機房其它系統影響。
3.6 安全要求
系統用戶數據保密性要求極高,絕對不容許泄密事件的發生。同時要求運營系統能夠主動的防御外部的攻擊以及抵御病毒的破壞。
3.7 響應要求
運營系統要能提供7*24小時的服務,當出現問題需要調整溝通時能夠立即進行響應。
3.8 團隊要求
一套成功的系統,除了必須具備上述強大可靠的服務器、網絡安全等硬件支撐能力、完善的系統和數據安全保障能力、完善的系統監控和保障機制之外,更重要的是能夠有一支強大的技術管理團隊。公司在開始規劃運營系統的同時,即開始著手運維團隊的建設和規劃,并一直給予很高的重視。目前所有運營系統都交付公司的運維團隊負責,運維團隊成員都具備多年的工作經驗,每個技術人員都有自已專長。運維團隊創建初始就按ITIL流程進行規范化日常維護和管理。通過近幾年的實踐和摸索,目前已經有較為完備的服務臺、事件管理、變更管理、問題管理等流程。通過ITIL最佳化實踐經驗,所有故障都將通過服務臺進行工單記錄、流程化故障處理。針對所有變更按流程進行白盒、黑盒等測試,只有測試通過后才提交運維部進行發布升級,針對每個流程都有完備的記錄和日志跟蹤,做到所有操作都有跡可循。
4 運維關鍵技術
運維是一項綜合性的工作,運維工程師在運維過程中會遇見形形色色的各種問題需要參與解決并從運維角度給出參考意見,包括架構設計、系統使用資源的評估、應用軟件設計的缺陷評估、系統資源調優、托管機房選擇、安全調優等等,并參與整個項目的實施過程。隨著時間的推移,越來越多的新技術會出現在運維過程中,例如集群技術應用、動態擴展的架構、安全運營中心(SOC)構建、網站加速(CDN)、大數據存儲等等,所以運維人員要與時俱進,需要不斷地通過這些新技術新的應用來完善運營系統,使得系統更加穩定可靠。這里主要介紹一下集群技術的應用。
集群技術應用:集群是由兩臺或多臺節點機(服務器)構成的一種松散耦合的計算節點集合,為用戶提供網絡服務或應用程序(包括數據庫、Web服務和文件服務等)的單一客戶視圖,同時提供接近容錯機的故障恢復能力。例如高性能計算科學集群,高可用性集群,負載均衡集群,分布式儲、計算存儲集群,數據庫集群,郵件集群等。集群由于機器較多,管理起來比較復雜,需要綜合考慮到以下幾點因素:
1)智能監控
包括對集群系統故障的監控以及資源、負載、網絡流量等使用情況的實時監控,從而保證集群系統穩定可靠的運行,并且對可能出現的問題及時處理。
2)故障維護
集群服務器數量較多,出現服務器宕機以及硬件故障的概率也隨之增大,因此,從系統穩定性可靠性角度出發,要充分考慮到故障問題,更多的通過應用程序的冗余負載部署來解決此類問題。同時要針對可能出現的問題,建立較為完備的應急響應機制,從而快速有效的采取解決措施。
3)運維自動化
集群服務器多,一些日常的工作,例如修改密碼,系統升級,系統發布等工作量比較大,需要借助一些自動化工具來批量完成這些日常工作,提高工作效率。
5 構建穩定可靠運營系統
構建穩定可靠的運營系統是所有對外運營公司的核心工作,需要通過一支穩定高效的團隊來進行建設。綜合前文所述,穩定可靠運營系統的構建影響因素很多,需要根據經驗不斷的進行運維策略的制定,并不斷進行調整,確保人工和自動巡檢的有效性,保證監控保障機制使用到位,避免出現監控不到位的情況,同時通過各種運維高新技術的學習和使用,確保運營系統的穩定、可靠。
參考文獻
[1] (美)阿爾斯帕瓦,(美)羅賓斯.網站運維:保持數據實時的秘技[M].楊建華譯.北京:電子工業出版社.
[2]劉宇熹,陳尹立.計算機系統服務外包及運行維護管理[M].北京:清華大學出版社.
[3]楊威.網站組建、管理與維護[M].北京:電子工業出版社。
[4]葛世倫,尹雋.信息系統運行與維護[M].北京:電子工業出版社.