趙 峰,石佳磊,李祉岐,孫 磊
ZHAO Feng, SHI Jia-lei, LI Zhi-qi, SUN Lei
(北京國電通網絡技術有限公司創新技術中心,北京 100070)
隨著IT技術及IT行業迅速發展,社會和企業的信息化程度不斷深入。企業信息化水平和企業經營業務之間的關系越來越緊密,企業業務對信息技術的依賴程度也越來越高。如何對IT系統實行有效管理成為實現企業信息化的一個重要關鍵。良好的IT運維管理方式作為提升企業IT管理水平的重點,已被越來越多的國內外企業接受、認可和發展。在當前云計算、大數據的技術浪潮下,企業的IT架構出現了巨大的變化,而隨之而來的就是企業的IT管理變得越來越復雜。尤其是在市場環境變得更加復雜和多變,市場競爭變得更加激烈,企業業務對于IT在及時性、穩定性、高效率等方面的需要變得更加的嚴格,因此,云計算環境之下,IT運維管理對于企業來說,其帶來的挑戰越來越大。企業需要一套行之有效的方法來實現對于企業IT支撐服務的綜合管理,以此來更好地為企業生產、管理業務服務。
隨著國網信息化SG186工程建設的推進,越來越多信息系統需要上線轉運行,在國網信息化水平踏上新臺階的同時,對于信息運維水平、標準化程度、規范性提出了更高的要求。為促進ITIL國際標準和國網信息運維現狀相結合,早在2007年國網就啟動了ITIL運維咨詢項目,2008年啟動了集ITIL運維流程管理在內的信息運維綜合監管系統。在總結咨詢成果和試點實施成果的基礎上,國網組織開展了信息運維流程標準的研究和系統改造工作。流程標準包括ITIL運維服務支持的五大流程,即事件、問題、配置、變更、發布管理流程。
隨著業務系統的不斷深化和完善,新功能模塊及外部應用集成接口持續增加,并與現有運維范圍內的功能發生交互和影響,系統復雜度和運維難度隨之提高,運維工作量大大增加。運維人員工作負荷已呈現逐步飽和狀態,出現高峰坐席全滿,客戶無法得到及時有效運維的情況。信息運維正呈現“點多面廣、復雜性增加、變更頻繁、要求提高、資源不足”的特點。
在主機虛擬化、存儲分布式、同城災備等云化技術的大量應用下,原有傳統的信息運維服務模式、能力有待進一步的優化提升,本文力圖著力于研究基于云化技術應用下,電力行業信息運維服務能力提升,從基于OpenStack的云平臺入手,建立基于云的電力信息網運維服務平臺,開展信息運維服務體系的系統性優化研究。
本次研究采用基于OpenStack社區版的企業級發行版,其底層以OpenStack穩定的社區版本為核心,同時增強企業級功能。如增加服務器HA(高可用)技術以增強KVM虛擬機的高可靠性。在應用層,應以管理需求為中心,增加復雜系統的易用性,如云主機的快速部署和回收,對物理、虛擬資源監控,以及多租戶管理和自服務等功能。在對外服務層,除了增強訪問服務的易操作性,還應考慮與其他環境對接,如與現有的AD集成、與運維軟件集成、與備份軟件集成等。
應用架構如圖1所示。
云基礎架構服務:包括虛擬服務器部署和計算模塊NOVA,實現對KVM或者VMWare虛擬機的管理,對Docker容器的管理,對Power小型機的管理;包括網絡管理模塊Neutron,提供云計算環境下的虛擬網絡功能,可同時支持多種物理網絡類型,支持防火墻服務、節點間VPN服務等;包括統一存儲管理模塊Cinder,支持Server SAN、IPSAN、FC SAN等各種架構,支持文件存儲、對象存儲和塊存儲等各種存儲服務模式。
云管理服務:包括虛擬機管理、網絡管理、存儲管理、鏡像管理、策略管理和硬件管理,企業級使用應該在OpenStack社區版的基礎上對虛擬機管理、網絡管理、存儲管理了增強,使之更符合企業客戶高可靠和易用性的要求。
監控/計量:企業級使用應包括硬件監控、虛擬監控、存儲監控、網絡監控、服務監控和資源計量的功能,其中大部分是OpenStack社區版不具備的,需要增強。
表1 系統功能模塊總結
自服務:企業級使用應提供網絡拓撲管理、安裝管理、升級管理、日志管理、通知管理和事件管理功能,大部分是OpenStack社區版不具備,需要增強。
云訪問服務:提供Dashboard和C L I 兩種訪問模式,應該在Dashboard上做了增強和改進,使之更符合中國人的習慣。
API服務:提供基礎架構管理API、監控API、遠程管理API、安裝部署API,使云計算平臺可以與其他系統對接。
安全:提供認證、權限、審計功能,并與AD對接。
圖2 自動化運維平臺技術架構
云平臺具備基礎設施即服務(IaaS)的核心管理能力,涵蓋從云服務定義、云服務申請、云服務供應、云服務變更、云服務回收等面向服務的生命周期管理能力。
1)采用全開源軟件作為基礎,完全做到自主可控、安全;
2)云計算平臺采用OpenStack;自動化巡檢采用Nagios、zabbix;軟件發布管理采用Puppet、weblogic發布系統;
3)多層體系結構,嚴格按大規模分布式系統和標準Linux python開發規范進行開發;
4)提供靈活的界面展示;
5)系統功能強大、技術先進,同時提供高并發處理能力,對外開放標準的RESTFul協議接口;
6)系統界面簡潔規范,美觀大方,操作方便;具備人性化、簡單的人機交互方式。
表2 總體技術路線
系統采用分層分模塊設計,總體上分為管理可視層、業務核心層、云平臺層;同時整個平臺采用統一的權限認證管理系統,簡化整個平臺的權限控制。
管理可視層:作為整個平臺的管理界面和信息展示區域,包括云平臺管理、流程資源管理、自動化巡檢信息展示、應用軟件發布管理四個功能區域。信息可視層包括各種管理界面UI,同時對巡檢信息進行自動化風險評估和宏觀趨勢分析,提供對事件監測上報事件、流量信息進行綜合的模型分析,并提供宏觀的展示和豐富的報表功能。
業務核心層:包括日常巡檢自動化,發布部署自動化,配置管理自動化、資源管理自動化、檢修管理自動化、實時事件監測、預警響應自動化等能力。該層結合第三方成熟產品,對云平臺上的巡檢、軟件部署管理等進行自動化管理,包括云平臺的每個虛擬機、云存儲、網絡資源、物理機資源、第三方應用軟件服務產品等。
云平臺層:基于開源OpenStack進行開發,實現對計算、網絡、存儲資源的統一管理、統一分配。
統一權限認證管理系統:可以統一管理各個操作系統平臺的用戶,集中管理,大大簡化系統規模擴大導致的權限管理的難度;同時可以支持使用廣泛、成熟穩定的LDAP協議,對支持LDAP的服務、終端設備等,都可以進行統一的權限管理。統一權限管理還可以按照不同的業務分組進行控制,方便業務劃分。
基礎云平臺用來管理控制基礎的物理資源,包括計算、網絡、存儲。上層包括運維自動化所需的各個功能模塊,以及展示交互UI。部分模塊說明如下:
知識庫模塊:根據現有的經驗,把常見的故障現象及處理方法,總結形成知識點,保存到知識庫;同時,處理方法要形成可執行的腳本或者其它可自動化執行的方法,方便自動調用。知識庫還應該具備自我學習能力,對一些新問題,應該要能夠根據處理結果自動形成知識點并保存。
自動處理模塊:能夠根據知識庫的定義要求,自動調度指定處理腳本,并進行相應的結果處理和通知、保存。
圖3 平臺功能架構示意圖
圖4 資源申請及分配工作流程
流程描述:
用戶通過ITIL發起請求;
云平臺通過RestFul協議接受到請求;
云平臺判斷請求所需資源是否滿足要求;
如果滿足,創建分配資源;
云平臺通過RestFul協議返回請求結果。
圖5 資源自動伸縮工作流程
流程描述:
平臺監控不停采集監控Weblogic負載數據;
如發現負載過高,創建新節點或者實例,加入集群;
如發現負載過低,從集群中刪除節點或者實例。
本文研究的基于OpenStack的自動化運維平臺,全部采用開源技術,具有良好的開放性和擴展性。平臺提供標準化的接口,可方便的與電力企業中各類其他平臺無縫對接,為今后與SOC(安全運維中心)等集成提供了便利條件。平臺支持跨地域、分層部署,各模塊間可拆、可合,各模塊可縮、可擴,滿足電力企業的特殊應用需求。同時,平臺具備良好的二次開發能力,提供靈活的數據配置及流程設計功能,用戶通過配置和簡單的界面操作即可實現各種流程及功能定制
通過自動化運維平臺對日常運維操作進行規范化、流程化、電子化管理,不僅實現了基于ITIL規范的事件、問題、變更、配置、知識庫等流程管理,還將與運維緊密相關的需求受理、產品質量等都通過流程規范管理,確保各項運維工作合規、有序進行,大幅度減少運維人員工作量,提升企業運維效率。
[1] 桂林.數據中心自動化運維平臺建設方法[J].中國電子商務,2014(11):79-80.
[2] 羅蕓,張曉川,朱建中,等.面向云平臺的集群運維管理方法研究[J].現代電信科技,2013(7):54-59.
[3] 徐紅泉.電力調度自動化系統綜合運維平臺設計方案[D].浙江大學電氣工程學院,2008.
[4] 周昕毅.Linux集群運維平臺用戶權限管理及日志審計系統實現[D].上海交通大學,2013.
[5] 梁鴻健,郭池,喬治中,等.基于ITIL的電網調度自動化運維流程系統的研究與建設[J].中國電子商情:通信市場,2011(6):187-192.