那寶玉,周紅亮,耿延軍
(軍委后勤保障部信息中心,北京 100842)
信息基礎設施云資源管理是現代政府和企事業單位提升生產力的重要組成部分。依靠智能運維體系中的信息基礎設施云資源虛擬化計費系統,能夠準確反映單位信息基礎設施云建設能力與效益的關系,并能夠衡量業務部門和信息系統是否存在資源占用率與使用效益不匹配不協調的問題[1]。平臺模型基于智能運維體系架構,通過對信息基礎設施云資源的發放量與實際使用率的虛擬化計費算法設計,構建了云資源的價格構成及相互關系,提供了云資源使用量和使用效益的虛擬化計費方法,建立了信息系統與建設費用的關系圖和效益關聯圖,構建了具有直觀、準確以及科學的云資源虛擬化計費模型,為單位實現信息基礎設施云精細化管理運營提供了重要依據。
某部門在申報時指定云資源。它的定價模型首先取決于成本,并根據相應的虛擬化技術方案和運營效能參考指標等核定云資源的單價。
云資源的總體投入成本涵蓋建設成本、服務投入成本、服務投入虛擬化計費(包括運維合同、軟件授權等)和運營虛擬化計費(水電生產經營費、硬件折舊、稅務負擔以及數據中心自身運維管理投入等)。為簡化問題,成本可簡化為CPU、內存、存儲、網絡以及其他5個部分,不考慮整機、弱電等對計費影響不直觀的項。
通常情況下,云資源管理者會提供不同服務級別、不同資源配備需求的服務。部門會根據業務屬性和實際需求,選擇相應的服務[2]。例如,核心業務系統提供最高級別的服務級別保障和30 min的服務響應,且提供隨時可彈性擴展的資源冗余;一般業務系統的資源配置和服務響應要求相對較低,服務投入虛擬化計費成本相對較低。為簡化描述,暫不將人力資源的響應列為虛擬化計費的影響因素。
云資源的投入總體成本TC包括物理CPU成本CC、物理內存成本MC、存儲系統成本SC、網絡建設成本NC以及其他成本OC。
更多的政府機關部門對云資源的需求都是相對獨立的,部門內部可能會建多個單業務功能的信息系統,或者在全部門內基于云資源分配情況建設業務云服務。無論采用哪種形態,對于單位自建的云資源占用與實際使用率都是可計算的。即使部門以VDC形式申請云資源,它的實際使用運行情況也能夠通過智能運維平臺進行準確計算,并得到對應的使用效益值賬單[3]。CPU虛擬化計費的乘積均為效益計費,但不同的信息系統所使用的CPU類型不一致。有的信息系統使用虛擬化CPU,有的信息系統使用物理CPU,也有兩種情況都使用。無論采用哪種情況,計費方式均相同。
云資源包括CPU、內存、存儲以及網絡等。為簡化問題,給定云資源A,其產品定價總體思路是依據A的年度整體成本c,結合云資源A的運營效能參考指標i、A在虛擬化后的總數量a、付費周期p以及年份y等維度進行計算,得出單價uP。云資源單價的定價模型可以概括如下:

以CPU資源的定價為例,單位數據中心共采購N顆物理CPU,可以作價為X元。假設N顆物理CPU可以虛擬化成M顆虛擬的vCPU并進行分配,既可以按vCPU進行分配,也可以按物理CPU進行分配,那么無論采用哪種分配方式,在智能運維平臺均可監控到CPU平均使用率。
1顆vCPU的包年價格如下:

1顆物理CPU的包年價格如下:

以虛擬化形式進行分配時,CPU本身也有一個平均使用率,這部分視作系統開銷。為簡化成本計算模型,這部分不參與計算。
云資源產品包括云資源或云資源的組合,也包括如服務級別保障等維度。為簡化問題,可以簡單地將云產品的定價pP設計為云資源的定價uP及其數量a乘積的累加。
例如,典型的云產品ECS包含了8vCPU、64 GB內存、40 GB SSD存儲、500 GB普通存儲以及5 MHz公網網絡帶寬等。該ECS的產品定價在本文中即是這些云資源及其數量乘積的累加。
計費的目的是衡量所有已分配云資源的價值。計費總額可以和投入總體成本進行比較和分析。
部門會根據實際業務需求建設各個業務單元信息系統,如圖1所示。這些信息系統部署運行在單位提供的信息基礎設施上,基于定價模型對各部門實際所使用/占用的資源采用虛擬化計費模型進行結算。某部門的計費賬單金額結果是該部門負責建設的各類信息系統匯總計算的結果。

圖1 計費模型構成示例
值得說明的是,由于定價模型中存在運營效能參考指標,當極端情況下所有云資源全部分配給各部門時,計費總額可能超過投入總體成本,即理論上有盈利的可能。但是,考慮到私有云資源產品定價模型和計費模型的虛擬性,目的是持續優化運營效能,參考指標是為了給運營本身帶來一定的彈性空間而設置的合理參考值,每年可以動態微調參考指標并清零盈利,因此單位應追求合理而不應過度追求盈利。
為簡化模型,云資源的計費僅考慮按訂閱計費的方式,忽略按量付費和特殊費率等方式。按訂閱計費是指根據預先訂閱的產品或分配的資源量,與相應的產品定價結合,計算出部門或信息系統的費用[4]。平臺根據該系統分配的云資源量,結合相應的定價,計算出信息系統的應計費用。其中,系統定價可以按照公式計算出每分鐘的定價、每天的定價以及每月的定價。因此,平臺可以計算出信息系統每分鐘的費用、每天的費用以及每月的費用。部門同樣根據所擁有的信息系統匯總出部門的每分鐘、每天和每月的費用。
按訂閱計費給定云資源產品A,A的應計費用e與包年包月的單價uP與訂閱周期p有關,為:

部門的應計費用TE是匯總所有云資源的應計費用,為:

云資源的使用效益模型,主要包括使用效益值和使用效能等評價云資源使用效果的一組指標。使用效益值可以在財務方面衡量云資源使用效果,與應計費用進行對比分析,得出云資源使用效能指標。使用效能指標可以反映云資源使用的充分性即實際使用率,通過映射落在使用效能健康度模型的各個區間里[5]。
使用效益值是指平臺采集各個業務信息系統實時使用的云資源情況,主要基于CPU、內存、存儲、網絡以及其他等資源的實際使用率,結合資源合理使用率,經過使用效益模型計算處理后,得出當前實時產生的使用效益值,并可以累計每月實際產生的使用效益值生成每月的帳單[6]。使用效益值賬單的最小計費單元為業務信息系統,指標項包括CPU、內存、存儲、網絡以及其他等5類。對于部門來說,把所屬的各個信息系統實時計算的效益匯總,可生成部門的實時使用效益值;把所屬的各個信息系統的月帳單匯總,可生成部門的月帳單。對于單位來說,把各個部門產生的使用效益值進行匯總,可獲得單位的使用效益情況。
給定云資源A,信息系統對A的占用量a在一定時間周期p內的使用效益值v與實際使用率r、合理參考使用率rR以及A的單價uP的關系如下:

某信息系統的云資源使用效益值是各種云資源使用效益值的匯總,為:

云資源的使用效能指標是使用效益值與應計費用的比例。通過分析資源使用效能指標,可以判斷某部門或某信息系統的云資源是否達到預期的效益。若按使用效益值結果大于應計費用,則使用效能指標>100%,說明云資源利用率比較高;反之,則低。該指標可以表征系統的健康度,按照分值分為不及格、及格、良好以及優秀,如圖2所示。

圖2 使用效能指標圖
若某個系統使用效能指標一直較低,甚至從未被使用,則可以認為該系統處于沉默狀態,即僵尸狀態。對于此類系統需要提醒并分析是否可以下線,并進行下一步處理。
使用效能指標過高、過低,平臺可以根據設置對部門進行提醒,以便部門采取下一步的行動方案。此外,部門可以收到平臺每月推送的帳單,以便了解云資源的利用率與使用效益。
簡言之,有了計費的結果數據,單位可以基于數據分析效益情況,及時發現問題并提出改進方向。此外,當年的計費結果也可以為第二年的預算申報提供參考。
單位方面有平均使用效能和運營效能指標兩個重要效能指標用于日常分析與部門評比。
3.4.1 單位平均使用效能指標
單位平均使用效能指標為單位匯總使用效益值與單位匯總分配云資源應計費用的比值。通過各業務部門的使用效能指標與平均使用效能指標進行比較,對低于平均使用效能指標的部門,可以分析差異和評比排名,如效能較好的Top10部門、效能需要改進的Top10部門、效能較好的Top10系統以及效能需要改進的Top10系統等。
3.4.2 單位運營效能指標
單位運營效能指標為匯總分配云資源應計費用與投入總體成本的比值。該指標反映了某單位資源的整體效益,通過運營效能指標的優化與提高,提升整體的運營能力。
虛擬化計費系統是基于智能運維平臺的信息基礎設施云資源計費模型的具體實現,包括數據采集層、平臺層和應用層。其中,應用層主要涵蓋成本核算、預算申報、產品定價、計費以及使用效益等App模塊,如圖3所示。
虛擬化計費系統的建設目標是為了回答3個主要問題:
(1)IT建設的投入總體成本核算,即單位總共花了多少錢;
(2)各部門的預算申報與資源占用應計費用,即部門用的資源值多少錢;
(3)這些資源發揮的效益值,即部門預算申報多少錢是合理的。
系統還可以在數據采集和平臺支撐的基礎上提供其他能力,包括可以滿足多樣化的數據分析需求。
云資源使用率數據采集層主要基于智能運維平臺,在信息基礎設施中采集云資源的實際使用率,它主要包括CPU、內存、存儲、網絡以及其他5個維度的云資源。數據采集層從智能運維平臺的監控數據中獲取物理資源或虛擬資源的實際使用量(率)與數據,并轉化為指標推送到平臺層的數據湖。
由于在原始數據中并不能識別具體是哪個部門或信息系統在實際使用信息基礎設施中的云資源,這就需要在平臺層中運用數字孿生對象模型,結合數字孿生對象的其他對象屬性來標識和統計。
數據采集層主要包括云資源使用率數據采集Agent和云資源使用率數據采集Collector兩類系統。
4.1.1 云資源使用率數據采集Agent
云資源使用率數據采集Agent通過針對不同云資源維度設置探針(Probes),如定時實時查詢私有云平臺API接口獲取虛擬機性能監控數據、實時采集虛擬機的syslog等方式來采集云資源實際使用率的原始數據。它主要包括CPU、內存、存儲、網絡以及其他5個維度的云資源。

圖3 虛擬化計費系統模塊
云資源使用率舉例如下。
CPU使用率為:

內存使用率為:

存儲使用率為:

4.1.2 云資源使用率數據采集Collector
云資源使用率數據采集Collector,可以連接各個Agent,并將數據通過云資源的數字孿生對象模型打通物理空間與數字空間,形成云資源使用率的數字化,而不僅僅是數據的保存。
云資源使用率數據采集Collector進行云資源利用率數據接入的適配容器。系統提供內置驅動集和驅動集成框架,包括CPU、內存以及存儲等維度的利用率數據采集驅動,支持Agent與Lake之間通過內部私有協議進行數據傳輸。
平臺層包括數字孿生、數據存儲、App服務編排、流程引擎、BI以及人工智能等子系統,為智能運維App層提供各種基礎與支撐能力。
4.2.1 數字孿生子系統(Digital Twin)
平臺層的數字孿生子系統充分利用物理模型、采集器更新以及運行歷史等數據,集成多學科、多物理量、多尺度與多概率的仿真過程,在虛擬空間中完成映射,從而反映相對應的實體裝備的全生命周期過程,包括對象建模和對象實例池兩個子模塊。對象建模模塊可以根據采集的數據自動生成對應的數字孿生對象模型(如服務器、虛擬機等),并建立資源實體與數字孿生對象之間的聯動關系。同時,對象模型也支持對組織架構的建模。對象實例池負責維護數字孿生對象的全生命周期,管理數字孿生對象的數據存儲、數據更新以及監控事件等。
4.2.2 分布式多元對象化數據湖(Lake)
智能運維數據包括云資源使用率數據及其他各種數據,數據量大,數據通量高,數據維度多,需要采用分布式多元的對象化數據湖來支持,如圖4所示。
4.2.3 智能運維大數據分析及AI算法
由于數據體量大,復雜多元,在運維過程中需要采用多種大數據分析平臺,如圖5所示。它擁有完備的大數據算法庫,采用主流AI算法,通過圖形化方式構建、訓練、測試、評估以及調優算法模型來保證運維效率。

圖4 分布式多元對象化數據湖(Lake)

圖5 智能運維平臺大數據分析模塊
4.2.4 智能運維體系的App服務編排(orchestrate)
App服務編排為系統應用與用戶自定義應用提供運行支撐,包括資源調度、配額管理以及安裝/卸載/停用等應用生命周期管理和可擴展的系統服務。應用可以基于平臺提供的系統服務和自身業務,實現各種業務功能。流程引擎可以連接數字孿生平臺與各種異構系統,并通過工作流的方式編排系統事件,為應用運行平臺提供應用內與跨應用的工作流能力。
應用層包括成本分析App、產品定價分析App、計費分析App、使用效益分析App、使用效能App、BI應用以及智能運維監控等。通過這些業務應用提供的能力,可以全面反映數據中心的信息基礎設施運行狀態、資源分配情況、資源計費情況、部門和業務系統的使用效益情況,以及對系統運行錯誤進行告警、自動除錯和自動擴容等。
4.3.1 產品定價App(ProductsPricing)
產品定價App在產品核心微服務的基礎上,提供產品的價格設置、成本設置與計算、各維度云資源的運營效能參考指標等。成本設置可以支持投入總體成本的直接設置,也支持各項成本項的屬性設置,隨后自動計算投入總體成本。定價主要提供包年和包月兩種訂閱方式。
4.3.2 計費App(Billing)
計費App主要是在提供各部門的資源申請后,按部門或信息系統進行定期的計費統計分析,并根據應計費值進行排名分析。計費App支持月度和年度的賬單推送,按部門維度推送給部門負責人,按多維度形成報表推送給單位。部門可在需要時再發起云資源產品的訂閱,以避免云資源的浪費。若部門在未需要時直接訂閱云產品,會導致應計費用的增加,但并沒有產生使用效益,導致使用效能指標降低。
4.3.3 使用效益分析App
使用效益分析App主要獲取智能運維平臺層數據湖中相應的數據,支持CPU、內存、存儲以及網絡等資源的使用效益值按小時、日、月等的使用效益值的計算。使用效益分析App支持CPU、內存、存儲以及網絡等資源的使用效能參考指標的設置。使用效能參考指標具備區間屬性,如從2020-01-01 00:00開始到2020-12-31 23:59結束,表示2020全年均采用該送效能參考指標進行送效益的計算。
4.3.4 使用效能分析App
使用效能分析App主要是根據智能運維平臺層的數據湖中相應的數據進行使用效能的計算,包括月度、年度、部門、信息系統、CPU、內存、存儲、網絡、其他以及系統可用性等多維度的大數據分析,進行部門或信息系統的云服務使用效能分析,并將該數據進行排名分析,以圖表的方式呈現。
本文基于信息基礎設施云資源分配與虛擬化計費的方法,通過智能運維平臺獲取運行數據,進行對單位各部門、各信息系統的云資源分配的使用效益值計算,實現了直觀反映單位部門在用信息系統的建設成本與效益的相互關系。部門對于信息化需求提報準確性和信息化項目所消耗信息基礎設施云資源的使用率,可以為任何單位信息基礎設施建設提供準確的參考依據。
該模型的優點是在政府和企事業單位有普遍適應性,特別是在有自建信息基礎設施需求的單位,可引導信息化預算據實提報,進行信息基礎設施的擴展、擴容以及升級等。實際設計模型后,仍可繼續完整。一些設計方面反映的資源分配與計費結果還有待優化。當前,從CPU、內存、存儲、網絡以及其他5個維度設計了計費方法與實現,其結果精確度的提高還可考慮更多維度和因素。