張曉慧,張千福,張才俊,林鴻,余錦河
(1.國家電網有限公司客戶服務中心,天津 300300;2.北京中電普華信息技術有限公司,北京 100085)
系統運行日志既是一個存儲盤,也是一個監測器件,因為系統運行日志一方面可以記錄系統硬件區域和軟件區域的重要數據信息,另一方面系統運行日志可以根據用戶的執行命令,查詢到一定時間內系統中的網絡攻擊信息和痕跡信息,受到廣泛的應用。根據系統日志的類型將系統運行日志主要分為三個方面,分別為系統日志、應用程序日志以及安全日志,系統運行日志分布式查詢方法主要針對這三種不同類型的系統運行日志進行功能分類設計[1-2]。
為了提高系統運行日志的查詢效率,該文以隨機游走模型為基礎,設計一個全新的系統運行日志分布式查詢方法。該文根據需求,分析出系統運行日志組件的功能,然后分析系統運行日志的數據節點流量,根據隨機游走模型理論基礎,總結出系統運行日志分布式查詢方法的工作流程。最后通過對比實驗驗證了基于隨機游走模型的系統運行日志分布式查詢方法具有意義。
隨機游走模型的查詢原理是對需要查詢的數據庫數據進行特征相似性游走路線加權處理,該路徑涵蓋數據庫內的所有信息,然后將具有待查詢特征的數據與路徑上的所有數據進行聚類處理,最終查詢出待檢測數據集合。為了使待查詢數據重構路徑內的數據具有唯一性,成功編入隨機游走路徑后,該文將對每一個數據向量分配一個m維向量。
特征數據向量與數據路徑內的其他數據相似度的計算公式如下所示:

其中,x、y分別表示不同的向量數據量[3-5]。
計算數據庫內數據之間的關聯度后,將數據向量之間關聯度的數值帶入關聯矩陣中,計算出數據待查的特征向量,計算矩陣如下所示:

其中,dj表示聯合梯度算子;wij表示對角線映射的加權值。
如果關聯矩陣之間不存在差值,則Aij=0 表示數據庫內的所有數據信息相同,立即輸出向量作為特征向量即可。
完成數據特征輸出后,根據調和函數和特征向量的標記點,計算出非特征數據向量與特征向量之間的直接連接概率。計算完成后,概率值最大的就可以相互連接,構成一個新的數據游走路徑,多次重復此計算,就可以得出數據特征的游走路徑[6-7]。計算公式如下所示:
積極開展水土保持知識進校園活動,針對中小學生開展了新一輪水土保持知識教育活動。在西寧市教委的支持下,2013年4月19日西寧市黃河路小學組織200余名師生在長嶺水土保持科技示范園區開展了“攜手保護生態,共建綠色家園”的主題活動。5月31日西寧市南川西路小學近1400名少年兒童到西寧長嶺水土保持科技示范園開展水土保持科普教育戶外實踐活動。同時編印了中小學《水土保持科普教育知識讀本》,在西寧市、海東市、黃南州等地中小學發放5000余冊。面向生產建設單位、水土保持重點地區印發了《水土保持科普讀本》1000余冊。同時制作了《青海小流域綜合治理紀實》《生態公園、綠色長嶺》等兩部專題宣傳片。

其中,L表示拉普拉斯變換參數;XI、XJ均表示連接路徑[8]。建立的隨機游走模型如圖1 所示。

圖1 隨機游走模型
正常的系統運行日志組件由P2P 網絡插件、搜索引擎插件、日志文件交換插件、日志數據定位插件以及通信插件共同組成,以維持系統日志的運行[9-10]。
P2P 網絡插件主要依靠C/S 網絡結構運行,處于系統的服務器和客戶端之間,主要的工作任務是維護系統硬件之間網絡數據正常的傳輸。P2P 網絡插件的優勢在于系統運行日志的加載量越多,那么網絡會對所有運行的日志進行限制,并且減少排隊的進程,減輕系統的負載量。插件為系統的查詢提供了有力的計算協助和較大的存儲能力,保證系統日志的正常運行。搜索引擎插件是系統運行日志組件的重要組成部件,插件的作用一方面是滿足系統日志內部的查詢需求,另一方面是與系統運行日志分布式查詢方法的插件進行感應連接,以提高分布式查詢的速度和準確率[11-12]。
搜索引擎插件的特點是只需要提供P2P 網絡即可驅動搜索引擎插件,不需要通過傳感器進行設置,不受系統日志格式的約束。日志文件交換插件的工作任務是將系統內部的有效日志在不擾亂系統正常運行的基礎上進行合理的對換處理。通信插件作為系統運行日志組件之一,其作用是利用P2P 網絡技術記錄系統日志與外界日志之間的通信記錄,在必要時可以通過語句命令,查詢到日志通信的數據信息以及系統運行日志的交換地址等信息。以上各個功能的插件共同維護一個系統日志運行的正常工作[13]。
隨著設備運行的變化,日志的內容通過網絡節點的傳遞,也會發生變化。為了保證系統運行日志分布式查詢過程中查詢數據庫信息的時效性,需要通過對日志數據節點流量的分析來完成。因為互聯網的連通性,每臺設備處于開機狀態一分鐘主動運行和被動運行的次數就會達到幾十次,導致計算互聯網的點擊記錄量的工作十分復雜,所以該方法不是查詢方法中最佳的途徑[14-15]。系統實時運行日志的網絡點擊路徑是最短的,該文對系統運行日志實時狀態的確定通過分析日志節點流量的路徑長度實現。一個系統運行日志網絡中存在多個網絡節點,日志跳轉概率如下所示:

其中,fi表示日志數據節點之間每個流量跳轉的概率;fk表示日志數據在節點之間多次跳轉的概率。點擊流示意圖如圖2 所示。

圖2 點擊流示意圖
在完成系統內運行日志的節點跳轉結算后,形成許多不同長度的日志節點段,然后衡量每段節點相對于日志特征節點的影響度,在一定范圍內影響度最大的節點映射運行IP 地址就是系統實時運行的日志地址[16]。節點之間的影響度計算公式如下所示:

流量推測公式如下所示:

其中,K表示系統運行日志的相對流量系數。
經過以上對系統運行日志組件、隨機游走模型以及系統運行日志節點流量的分析,初步完成了基于隨機游走模型的系統運行日志分布式查詢方法研究。該文為了使查詢方法的應用效果更佳,總結出系統運行日志分布式查詢方法流程,具體流程如圖3所示。

圖3 系統運行日志分布式查詢方法流程
首先,查詢方法需要采集查詢日志所屬的系統信息,為接下來分布式查詢奠定數據基礎;
其次,查詢方法驅動系統運行日志的各個相關組件,通過隨機游走模型鎖定系統運行日志的基本信息,根據模型計算出系統運行日志的關鍵路徑;
最后,通過對系統運行日志信息的節點流量分析,驗證數據是否具有時效性,如果信息是最新更新的日志信息,就保留信息,如果不是,則存儲更新后的日志信息。隨機游走模型將系統運行日志內部需要查詢的數據信息按照規定的查詢順序匯總為文件的形式輸出,完成系統運行日志的分布式查詢。
通過以上論述完成了基于隨機游走模型的系統運行日志分布式查詢方法的研究,為了檢驗該方法是否具有效果,是否達到查詢規范,該文進行對比實驗完成驗證。對比實驗方法采用基于人工智能分類的系統運行日志分布式查詢方法和基于數據流查詢的系統運行分布式查詢方法,另外為了保證對比實驗結論的精度,在實驗過程中,同時采用專業的軟件對系統運行日志進行查詢,將不同方法的查詢結果與標準結果進行對照。
為了保證實驗的公平性,對比實驗的測試樣本是一個具有工作痕跡的計算機,三種查詢方法分別連入計算機設備內,完成測試。在實驗過程中,待測的計算機設備還會連入一個數據監測儀,方便實驗結束后對測試數據進行復盤,避免實驗數據出現誤差。將三個系統的運行觸發時間作為實驗的開始時間,在運行日志數據采集過程中,工作人員需要實時觀察數據監測儀,一旦出現危險情況,立即關閉電源,停止實驗,保證安全。當三個查詢方法全部提交了系統運行日志的查詢信息報告,則立即結束實驗,整理實驗器材,分析實驗數據,得出實驗結論。
得到的采集數據匹配度實驗結果如表1 所示。

表1 采集數據匹配度實驗結果
查詢精度實驗結果如圖4 所示。

圖4 查詢精度實驗結果
實驗操作結束后得出基于隨機游走模型的系統運行日志分布式查詢方法查詢出的數據結果與專業軟件查詢出的數據結果匹配度達到了98.54%的結論,且查詢精度最高。三種查詢方法所耗用的時間由短到長分別是基于人工智能分類的系統運行日志分布式查詢方法、基于隨機游走模型的系統運行日志分布式查詢方法、基于數據流查詢的系統運行分布式查詢方法。另外,三種查詢方法只有基于數據流查詢的系統運行分布式查詢方法在查詢過程中破壞了系統運行日志的數據信息,因此該方法不是最佳的查詢方法。因為系統運行日志分布式查詢方法的性能評價在于查詢的精度,查詢所耗用的時間只是一個輔助因素,綜上各種數據參數,可以得出基于隨機游走模型的系統運行日志分布式查詢方法具有查詢功能,達到了查詢規范。
得到基于隨機游走模型的系統運行日志分布式查詢方法是最佳方法的關鍵在于基于隨機游走模型的系統運行日志分布式查詢方法借鑒了隨機游走模型的理論核心,將一個系統內部的所有運行日志進行隨機游走加權處理,按照一定的規律進行關聯分類和聚類,在分布式查詢命名被觸發時,該方法可以快速地完成日志查詢,保證查詢結果的效率。另外,基于隨機游走模型的系統運行日志分布式查詢方法還融入了日志數據節點流量分析和系統日志組件的分析,可以保證系統運行日志分布式查詢的精度。
通過以上的對比實驗分析,證明了基于隨機游走模型的系統運行日志分布式查詢方法,可以準確地查詢到系統的相關信息。該文研究的查詢方法,通過隨機游走模型對系統運行日志的相似數據進行游走加權處理,實現系統運行日志的快速聚類和關聯,為日志的分類查詢奠定分類基礎,提高系統運行日志的查詢準確率。以該文研究的方法作為實踐基礎,接下來需進一步分析系統內部信息的分布式查詢方法,完善系統的查詢功能。