張才俊,于喻,吳杏平,唐文升,孫德艷
(1.國家電網有限公司客戶服務中心,天津 300300;2.北京中電普華信息技術有限公司,北京 100085;3.國家電網有限公司,北京 100031)
并行計算也稱平行計算,是相對于串行計算制度而存在的。該項應用技術能夠在同一時間內執行多個指令算法,其目的在于提高數據參量的實際計算速度,在擴大問題求解規模的同時,解決各類復雜的計算問題。所謂并行可解釋為“空間上的并行”、“時間上的并行”兩部分,前者是指利用多個處理器設備進行并發式的執行計算,而后者則是指一系列連貫的流水化數據計算任務[1]。在獨立的應用系統環境中,并行計算技術可以以某種方式,將多臺計算機設備組成一個完整的集群組織,且隨著該項技術手段的應用,集群內完成處理的數據參量可直接反饋回用戶主機內部。
系統日志能夠準確記錄系統在運行過程中所發生的各項軟硬件執行問題,同時還能對系統中可能發生的事件進行監視[2]。一般情況下,用戶主機可根據錯誤發生原因,尋找攻擊文件在攻擊過程中留下的信息痕跡。傳統分布式采集策略為獲取大量的系統運行日志,需要在軟件技術手段的支持下,對日志信息所屬格式進行定義,再針對網關產品的局限性問題展開深入研究。然而此方法并不能完全滿足日志服務的可擴展性需求,易導致系統運行環境穩定性水平的下降。為解決此問題,引入并行計算技術,設計一種新型系統運行日志采集方法,通過選定性能指標的方式,確定線程任務的并行量數值,再聯合異構體的可移植性能力,計算日志數據的實際采集量水平。
通用并行計算技術研究由性能指標選定、線程任務并行量確定、異構體可移植性分析3 個步驟組成,具體研究過程如下。
性能指標能夠描述系統運行日志在單位時間內的傳輸數值量水平。一般情況下,該項物理量能夠決定系統在未來一段時間內的實際工作能力,且由于并行計算原理在數值方面的真實約束性,最終所選定的性能指標基本能夠完全滿足系統日志的實際運行需求[3-4]。設代表系統運行日志在單位時間內的通行輸入量均值,χ0代表指標參量的下限采集權限,χ1代表指標參量的上限采集權限,β代表基于并行計算原理的日志數據傳輸判處條件,聯立上述物理量,可將系統運行日志的性能指標選定結果表示為:

式中,Rmin代表系統運行日志的最小特征值,Rmax代表系統運行日志的最大特征值,e1、e2分別代表兩個不同的日志數據并行處理參量。
在完成性能指標選定后,并行計算的線程任務并沒有完全結束,而是有一部分任務以單線程的形式在系統CPU 運行核心上繼續傳輸,當線程消耗量達到理想數值標準后,才能收獲最終的并行量計算數值[5]。常規的CPU 運行核心元件中至少包含4個處理器設備,且隨著線程任務并行量數值的增加,待采集的系統運行日志量也會逐漸增大,但二者之間的數值配比關系始終滿足日志數據加速比定律[6-7]。設α0代表線程任務的最小單向傳輸系數,α1代表線程任務的最大單向傳輸系數,在上述物理量的支持下,聯立式(1),可將線程任務的并行量計算結果表示為:

其中,λ代表與系統運行日志數據相關的單線程傳輸系數,W代表日志數據特征值,w代表參量W的補充說明條件,Y代表日志數據采集權限值,y代表參量Y的補充說明條件,代表單位時間內的日志數據并行處理系數。
異構體的存在不僅方便了并行計算技術的應用,也為系統運行日志數據采集提供了大量的可參考節點。由于線程任務并行量在單位時間內始終保持不斷增加的數值變化趨勢,因此日志數據異構體必須具備較強的可移植性能力。根據已選定的性能指標,對線程任務并行量進行精準計算,再通過判定系統運行日志采集量的方式,實現對異構體可移植性能力的判別與感知[8-9]。假設代表單位時間內系統運行日志數據異構體的最小采集規模系數,代表單位時間內系統運行日志數據異構體的最大采集規模系數,σ代表冪次項并行處理指標,在上述物理量的支持下,聯立式(2),可將并行數據的異構體可移植性能力定義為:

式中,φ代表日志數據的線程任務定義系數,D代表單位時間內的系統日志采集運行指標,f代表信息參量的并行計算權限值,代表日志量運行采集均值。
日志采集框架能夠在并行計算原理的作用下,提取系統內處于運行傳輸狀態的日志文件,并借助相關傳輸信道,將這些信息參量反饋至相關客戶端主機之中。在系統運行環境中,日志文件始終具有多種源類型存儲形式,其中一部分源類型文件能夠對日志數據起到傳輸支配的作用,也有一部分源類型文件則能夠幫助系統準確掌握日志數據連接與存儲方式[10-11]。隨著日志采集指令的實施,并行數據源只能以創建流的形式在系統環境中傳輸,且隨著采集任務的形成,最終采集到的日志數據信息始終具備較強的傳輸感知能力,直至形成獨立的信息采集流文件后,系統才會在既定時間內達到理想化的數據并行計算水平標準[12]。日志采集框架結構如圖1所示。

圖1 日志采集框架結構圖
AQM 分類器負責采集系統環境中的各項運行日志數據,并可在并行計算原理的作用下,對這些數據信息進行精準區分,從而避免源類型數據對日志文件造成的干擾影響[13]。AQM 分類主機直接作用于日志采集源,可借助采集通道,對這些傳輸信息進行標記處理,再將其反饋至存儲數據庫、并行數據樣本等多個物理信息空間中。由于并行計算原理的存在,AQM 分類主機能夠準確掌握日志數據源的實際傳輸需求,并可在不違背系統運行需求的情況下,對日志數據文件進行目的性整合處理,從而實現對信息數據參量的按需采集與調取利用[14]。AQM 分類器結構如圖2 所示。

圖2 AQM分類器結構示意圖
采集量計算是系統運行日志采集方法設計的末尾處理環節,可在已知并行計算需求的前提下,將日志數據整合成多個完全獨立的存儲形式,并將這些物理信息量分別反饋至相關的設備應用結構體之中。在不考慮其他干擾條件的情況下,日志采集量計算結果只受數據并行指標表現量的直接影響[15-16]。一般情況下,數據并行指標表現量由最大值、最小值兩部分組成。其中,數據并行指標表現量最大值為ψmax、數據并行指標表現量最小值為ψmin,兩者的物理差值水平越大,最終計算所得的采集量數值也就越大,反之則越小。在上述物理量的支持下,聯立式(3),可將日志采集量計算結果表示為:

其中,代表日志信息量反饋系數,代表既定數據采集指標,b1、b2分別代表兩個不同的系統運行標準項系數。至此,實現各項系統應用指標的計算與處理,在并行計算原理的支持下,完成系統運行日志采集方法的設計[17]。
為驗證基于并行計算系統運行日志采集方法的實際采集性能,進行仿真對比實驗驗證。日志文件采集環境如圖3 所示。
在圖3 所示的采集環境中,將文中方法與傳統方法的運行主機分別與采集主機設備的接口相連。

圖3 日志文件采集環境
QTR 與WEP 指標的數值越大,說明采集方法的采集性能越強,對于系統運行日志的采集能力越強,能夠保證系統的穩定運行。QTR 指標數值對比結果如表1 所示。
從表1 的實驗結果中可以看出,在實驗時間不斷增加的情況下,文中方法與傳統方法的QTR 指標數值均呈現出持續上升的趨勢。但是,文中方法的QTR 指標數值始終高于傳統方法,其最高達到85.6%,傳統方法的QTR 指標數值最高僅為36.5%。

表1 QTR指標數值對比結果
文中方法與傳統方法的WEP 指標數值對比結果如表2 所示。

表2 WEP指標數值對比結果
從表2 中可以明顯看出,文中方法的WEP 指標數值從實驗開始初期不斷增加,從35 min 開始穩定在74.5%,而傳統方法的WEP 指標數值從實驗開始至結束一直呈現出不斷下降的趨勢,最終結果下降到39.8%。
通過表1 與表2 的對比驗證,相較于傳統方法,文中方法的QTR 與WEP 指標數值顯著增加,說明文中方法的采集性能更優。
綜上可知,應用基于并行計算系統運行日志采集方法后,QTR 指標、WEP 指標均出現了一定程度的數值上升變化趨勢,能夠較好滿足運行系統對于日志服務可擴展性的實際應用需求。
在并行計算原理的支持下,新型系統運行日志采集方法可通過選定性能指標的方式,確定異構體數據的可移植性能力,再聯合日志采集框架與AQM分類器,實現對日志文件采集量的精準計算。從實用性角度來看,QTR 指標數值與WEP 指標數值的提升,能夠較好滿足日志服務的可擴展性需求,進而對系統運行環境進行維系與完善。