古毅
摘 要:隨著互聯網用戶的不斷增加和計算機科學與技術的快速發展,在系統的運行維護方面,越來越多的互聯網企業期望實現更高的運營效率,改進傳統的運維技術,云計算技術為解決這一問題帶來了新的機遇。云計算技術在日益互聯的世界中,提供了更高的靈活性和可擴展性。它的主機和存儲設備使用虛擬化技術,并通過平臺、軟件和服務等方法進行共享,這使得快速部署IT環境成為可能。通過更加合理地配置資源以及按需支付模式,提高了資源利用效率,極大地降低了企業的運營和維護成本。
關鍵詞:云計算;運維;效率
近年來,隨著云計算技術的飛速發展,它成為計算機領域最熱門的術語之一。在運營方式上,云計算不僅對中小企業有影響,對大型互聯網企業也有影響。中小型互聯網公司的互聯網項目需要網絡設備、服務器設備、機房設備、CDN和線路設備、在線運維人員、IDC機房運維人員等。在項目開始時,這些復雜的機器設備和公關項目過程消耗了大量的人力、物力和財力,造成了項目成本增加、開發維護困難等一系列問題。對于大型互聯網公司來說,在長期的流動和擴張的影響下,其運營和維護組織將變得越來越臃腫。隨著互聯網企業使用云計算服務,則前線的運營和維護將在整個過程中轉移到云服務提供商進行相同的管理,從而可以大大減少項目初期的投資。當然,大多數公司可能不使用公共云,而是開發自己的私有云,但它們本質上是類似的,即整合和集中一線運營維護,為各項目組人員提供云服務,充分利用資源。因此,如若越來越多的互聯網公司進軍云計算運維技術,那么對傳統的運維將會造成極大影響。
1 當前運營維護中存在的問題
傳統的運維效率較低,并且會給運維工程師帶來很大的壓力,主要表現在:
(1)服務器恢復時間長
為了避免基于傳統硬件維護過程的硬件故障風險,不僅需要更高的硬件更新成本,而且由于軟件升級等原因,還會給系統的穩定性和可靠性帶來風險。應用程序服務器在關閉時無法在最短的時間內恢復。
(2)系統維護工作量大
隨著服務器數量的增加,它給運維工作帶來了很大的困難,同時給IT工程師增加了管理工作量和難度。
(3)系統無法靈活配置
現有應用程序無法在當前狀態下在服務器上靈活配置,無法在最短的時間內完成部署新應用程序。業務系統分布在不同的服務器上,如果服務器硬件或軟件出現故障,將導致單點故障,從而導致應用程序
中斷。
(4)能源消耗持續增長
隨著應用數量的增長,服務器硬件相應增加,使能耗持續增加。它需要擴大網絡機房的供電和空調,這將帶來能源浪費。
2 云計算的優勢及對運維的影響
2.1 云計算的優勢
首先,云計算解決了項目開發初期的平臺環境和基礎設施建設問題,部署利用了計算機的集約效應。因此,可以充分發揮計算機的性能,使項目開發人員不再需要花費大量精力來維護和集成硬件。通過硬件虛擬技術,可以在同一主機上構建多個硬件虛擬設備。此外,云計算允許不同版本的操作系統共存,同時支持不同操作系統的主機映像。它解決了傳統應用程序隨操作系統升級而被動升級的問題,為應用程序的維護提供了便利[1]。
在硬件設備、中間件平臺和應用程序獨立部署的時代,云計算技術的出現和應用類似于社會專業的劃分。軟件系統與人類社會早期的建筑公司相似:從購買機械設備開始,雇傭技術工人來完成一個建設項目,進而到建筑后期的裝修和維護。但是,其有著巨大的缺陷,無論是該項目的需求量是減少還是增加,人員和設備都會是公司面臨的極大問題:當需求增加時,資源不足;當需求減少時,需要實時維護冗余的資源和設備。云計算的出現可以更好地解決這個問題。云計算提供了開箱即用服務的各種層次和不同方面,如:在SaaS層,它可以為單個用戶或中小企業提供標準化軟件服務;在IaaS層,它提供定制或標準化的硬件配置和操作系統;在PaaS層,它提供平臺級軟件需求之一,如開發和部署環境和中間件平臺。
在云服務技術的發展進程中,由于分工更加細致,這自然會較大地增加企業管理成本。然而,這種更為詳細的分工又帶來了節省成本和服務租賃市場適應性的優勢。在云計算領域,由于存儲資源與主機虛擬能力的差異,以及中間服務軟件等虛擬資源的重復,云計算服務提供商的利潤空間更加靈活。為了進一步降低服務價格,吸引更多的服務用戶,這是各方積極參與云計算時代的重要因素。
總的來說,云計算擁有以下優點:(1)硬件的可重復利用率增加了10倍;(2)運行系統可以整體實時遷移,使IT環境能夠繼續正常運行,這意味著即使在維護期間也不會出現中斷;(3)它可以加快應用程序的開發和部署周期;(4)它可讓新環境和系統同存;(5)它增強了系統的恢復能力,極大地減少了服務器的恢復時間;(6)它具有良好的可擴展性,可滿足未來硬件和軟件的需求。
2.2 云計算對運維的影響
使用云計算技術可以極大地提高服務器的整合效率,大大簡化服務器組管理的復雜性,并提高整個系統的可用性。它還可以顯著降低投資成本,并具有良好的技術領先地位和成本效益。
云計算在企業用戶實踐中面臨著操作和維護的挑戰。運營和維護工程師認為在使用云計算技術之前,一切都在控制之下。他們可以告訴我們系統A在X行和Y列的Z主機上運行。該設備已被納入備份管理。在不久的將來,設備將正常工作,只有B區主機才能安全進入。使用云計算技術后,運行維護工程師很難知道A運行在哪個主機系統上,因為他們都使用設備的虛擬化管理,A系統可能在不同的主機上運行不同的時間。
云計算引入后,運行維護的重點將不僅是原有管理設備的正常運行和網絡的暢通,還將是資源的主動供給、自動配置、可持續性和可跟蹤的實時配置管理[2]。其對傳統的IT運維流程將產生以下影響:
(1)需要添加虛擬資源作為新的監控對象
除了原始的物理資源和應用程序外,操作和維護監視工作還考慮了虛擬化環境中的各種虛擬資源,包括新的監視對象、事件和虛擬資源的事件分類。
(2)維護過程中解決虛擬資源事件的方法不同
虛擬資源支持資源的自助應用、容量擴展、恢復和遷移,因此可以在事件發生時實現快速部署。它們還可以在應用程序繁忙時根據需要動態增加計算資源,并在應用程序空閑時釋放它們。他們還可以為資源池中的計算資源實現動態資源遷移。
(3)運維的檢查要求是不同的
與傳統資源環境不同,必須檢查云計算平臺是否存在安全風險、不合規,性能或容量是否符合上線前的情況要求。只有通過這些檢查才能在線,這樣可以避免出現一些事故風險,并減少事件的發生。
(4)支持團隊的運營和維護要求不同
根據部署在云計算平臺的應用程序,維護活動可能與不同的部門和角色有關,傳統的IT支持團隊無法在單一功能類型中完成。此外,云計算的高可用性還極大地減少了IT支持團隊在流程中的參與和努力。
3 云計算運維的標準化與自動化
3.1 云計算運維的標準化
現如今,云計算的工業實現已經不難了。但是對于云計算工程方面,云計算運維卻是較為困難。管理100臺、1萬臺或者100萬臺機器,其難度是全然不同的。機器少可以用人工管理,但是機器多時是不可能全靠人工的。所以,云計算運維的一個關鍵因素之一就是標準化。只有制定了一個統一的標準,運維環境、操作和服務擴容等有了完善的標準化流程,才能保障業務的順利開展。
3.1.1 運維環境的標準化
首先,需要有操作人員的權限控制。開發人員、測試人員、運維人員需要有不同的權限。例如,開發、測試人員只可擁有只讀的權限,而運維人員能夠有可讀可寫可執行的權限。
其次,需要統一規范程序的目錄。要么將其全部部署在/opt下面,要么將其部署在/home下面,當出現故障時,以防出現找不到目錄的情況。
然后,需要規范服務配置。讓配置統一起來,以方便后面的排錯。例如,參數之前寫好注釋,相同配置采用拷貝的方式等。
最后,機器的啟動關閉方式要統一。由于程序與程序之間的啟動方式不太相同,這會給運維人員造成很多的困擾。
3.1.2 運維操作的標準化
首先,需要采用工單管理的方式。需要先將操作單發出來,經過嚴格的審批,才能夠執行。工單上必須寫清詳細的步驟和操作命令,模糊的工單會讓人有多種理解方式,很容易造成誤解。
其次,需要按單操作。運維人員在看到工單以后,如果發現工單有錯誤,需要和發單人員核實以后,重新審批才能操作。操作時根據情況,采用雙人或者多人的方式,一人操作,一人觀察,出現問題及時打斷,提高操作的準確性。
最后,必須要回滾備份。我們很難保證操作完成以后,一定不出問題,因此,隨時都要做好備份,方便回滾。
3.1.3 服務擴容標準化
在業務中,我們經常會遇到服務擴容的情況。在云計算環境下,服務擴容也是有一定標準的。需要對服務的計算模型進行評估,得出計算、存儲、網絡的最佳的比例,將其做成Set模型。在服務擴容的時候,嚴格按照Set模型,一個Set一個Set添加,這樣能夠保證服務的最優配比,規范運維環境,提高資源利用率。
3.2 云計算運維的自動化
在云計算環境中,人工操作太多,總有可能出現故障。提高服務的自動化程度,能夠大大減少運維故障。比如在添加計算節點的時候,我們盡量采取自動化添加,避免了手動操作的隨意性。同時,采用自動化操作,即便出錯,所有的錯誤也會一致,相比手動操作,更加容易排錯。
4 結語
隨著技術的不斷發展,云計算與運維的關系將會越來越緊密。相對于傳統運維而言,云計算平臺服務端的復雜性和創新性,對于運維是個全新的挑戰,運維思路和方式都會發生改變,這種改變不是簡單的在傳統運維上的優化,而是基于云計算特征孕育而生的運維重構。運維方式的轉型,將會為互聯網公司帶來新的機遇。
參考文獻:
[1]楊剛,隨玉磊.面向云計算平臺自適應資源監測方法[J].計算機工程與應用,2009,(29).
[2]曹吉慶,張樹海.IT運維在虛擬化環境下的流程改進和設計[C].國際云計算與大數據分析會議,2016.