999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識庫和HSMM模型的云日志分析方法

2020-09-26 11:43:52張崢峰何成萬張進
電腦知識與技術 2020年24期

張崢峰 何成萬 張進

摘要:為了分析云基礎環境下各個組件產生的日志數據,本文提出了一個基于知識庫和HSMM(隱半馬爾科夫模型)的云日志分析方法。首先,日志分析系統整合了Flume, Kafka, Spark Streaming;然后,消費模塊實時獲取云日志,云日志經過一系列處理后形成時間事件序列用于故障預測,正確的預測結果將通過接口寫入知識庫。此外,獲取的云日志會寫入elasticsearch中用于日志檢索;最后,通過實驗對系統的實用性指標進行了評估。該云日志分析系統可以聚集多源日志,方便日志檢索,提高預測的準確度。

關鍵詞:Spark Streaming;云日志;TF-IDF;知識庫;OpenStack

中圖分類號:TP311.5 ? ? ? 文獻標識碼:A

文章編號:1009-3044(2020)24-0007-04

Abstract: In order to analyze the log data generated by various components in the cloud-based environment, this paper proposes a cloud log analysis method based on the knowledge base and HSMM (Hidden Semi-Markov Model). First, the log analysis system integrates Flume, Kafka, and Spark Streaming; then, the consumer module obtains the cloud logs in real-time, and the time event sequence formed by the cloud logs after a series of processing is used for fault prediction. The correct prediction results will be written into the knowledge through the interface. Library. Also, the obtained cloud logs will be written into an elastic search for log retrieval; finally, the usage practices of the system was evaluated through experiments. The cloud log analysis system can aggregate multi-source logs, facilitate log retrieval, and improve the accuracy of prediction.

Key words: Spark Streaming; cloud log; TF-IDF; database of knowledge; OpenStack

1引言

伴隨著云時代的到來,以OpenStack[1]搭建的云基礎平臺(IASS)越來越受到人們的重視。OpenStack搭建的云基礎平臺包含了儀表盤組件Horizon,計算組件nova,網絡組件neutron,對象存儲組件swift,塊存儲組件cinder,鏡像組件glance,身份認證組件keystone,計費組件ceilometer,編排組件heat。云日志具有多源性特點:組件的獨立性,即使是單機部署的OpenStack,不同組件運行后形成的日志文件也在不同的文件夾下面;業界熟知的阿里云,亞馬遜云等都是一個分布式集群,集群中包含了控制節點,計算節點,網絡節點和數據節點等,節點部署在集群的不同主機上,節點的分散性決定了日志多源性。

文獻[2]提到了日志對于系統的運行維護和故障診斷都具有很大的幫助。直接閱讀多源日志需要手動來回切換日志存儲目錄,不方便查詢。故障預測作為故障檢測的一種手段,讓運維人員能夠盡可能及早發現故障。日志的多源性會增加數據種類的多樣性,增加系統監聽負擔,給故障預測的準確率和實時性都提出了挑戰。

本文提出了一個基于知識庫和HSMM模型的云日志分析方法。該方法具有集中分散多源日志、方便查詢日志、能夠在不修改源日志結構的前提下進行故障預測和提供解決方案等特點。

2相關工作

關于云環境下的日志分析,很多學者對此展開了深入的研究。Shetty[3]等人提出了一種基于機器學習和控制理論模型的數據挖掘技術,可以自適應地調整檢測閾值,通過實時分析云日志來發現云環境中的異常事件,這是一種事后診斷的方法。Wang等人[4]設計并實現了一個云數據中心審計系統 CDCAS(Cloud Data Center Auditing System),用一個分布式自治代理模型來收集各種多源異構日志,基于特征的方法和相關性分析算法比較審計日志和預配置或預定義的事件模式,從而發現非法行為。由于是在非法行為已經發生了的情況下通過日志分析來發現系統異常的方法,是一種事后處理的方法。張之宣等[5]提出了一個基于HSMM模型的異常預測方法,能夠對系統故障進行預測,但是預測的準確率不高,并且故障預測的結果是基于二分類的分類方法,其最終預測結果只有異常或者正常兩類,所以異常的具體內容是無法得知的。王智遠[2]等人提出了一種日志異常的檢測方法,首先基于編輯距離進行日志聚類形成模板,然后對模板進行TF-IDF分詞處理形成數值型特征向量,然后使用貝葉斯,邏輯回歸等弱分類器構建得分特征向量,最后利用得分特征向量和隨機森林得到強分類器用于異常檢測。實驗證明了該方法具有很好的分類效果。由于是基于事件已經發生后進行的分類處理,所以還是一種事后處理辦法。

本文提出的是基于知識庫和HSMM預測方法,簡稱KDB+HSMM(Knowledge DataBase+HSMM)。隨著時間推移,知識庫內容的豐富完善,相對原有的HSMM[5]預測方法而言,能夠提高一點預測的準確度,得知異常發生的具體內容。

3系統設計與實現

整個實時系統主要分為三大部分,數據采集部分,數據分析部分,數據前端展示部分,系統的整體架構如圖1所示。

3.1數據采集

Flume是一個采集工具,主要功能是可以把各種數據源通過管道把數據下沉到目的地。通過配置數據來源和數據下沉的目的地,可以完成數據從產生的地方遷移到目的地。通過配置監聽0penStack各個組件日志文件,從而將分散的多源日志集中收集起來,便于統一進行處理。

Kafka是基于消息發布訂閱系統,由producer,broker,consumer構成,生產者向broker某個主題發布消息,消費者訂閱該主題,可以從該主題上拉取數據。作為大數據處理的中間件,起數據處理緩沖作用。Kafka作為Flume和Spark Streaming之間橋梁,Flume下沉數據到Kafka主題上,Spark Streaming訂閱主題實時消費數據。

Spark Streaming是偽實時處理框架,通過Spark Streaming提供編程模型,設置多少時間為一個批次,由于時間很短,近似看作是實時處理。Streamingcontext是Spark Streaming的程序入口。

valsparkConf ?= new SparkConf()

.setAppName(“cloudLogAnalysis”).setMaster[“local[*]”];

//配置[?t],作為數據的一個批次。

valssc = new StreamingContext(sparkConf,Seconds([?t]));

3.2 數據分析

3.2.1 故障預測

故障預測模塊實現是基于知識庫和HSMM預測方法。假設故障出現的時間點time,手動配置[?t],預測前置時間[?lt],在(time-[?lt-?t])到(time-[?lt])組成事件序列用來預測發生的time點的故障,如圖2所示。

在知識庫中建立3張核心的表。表TTC(typeId,typeContent),如表1所示;TIK(typeId,knowledge)如表2所示;FST(failSequence,typeId)如表3所示。

KDB+HSMM預測的過程,如圖3所示。

1) OpenStack日志格式統一為<時間戳><日志等級><代碼模塊><日志內容><源代碼位置>,過濾日志等級為ERROR的日志數據。時間事件序列重點關注云日志的兩個字段,時間戳(timeStamp)和日志內容(message),其他字段清理掉,簡化計算。時間戳標記事件發生的先后順序,日志內容進行事件的分類。

2)對日志內容進行常數歸一處理,降低矩陣維度和減少無意義特征,提高效率和模型精確度。例如nova-compute.log中一條錯誤日志內容AMQP server on 192.168.143.128:5672 is unreachable: Too many heartbeats missed. Trying again in 1 seconds. Client port: None: ConnectionForced: Too many heartbeats missed,替換常數后形成的日志內容為AMQP server on * is unreachable: Too many heartbeats missed. Trying again in *seconds. Client port: None: ConnectionForced: Too many heartbeats missed,不同的常數增加了維度,統一用*號去代替,降低維度。

3)將經過2)常數歸一處理后的文本信息轉為數值型特征。本文采用是TF-IDF,對日志常數歸一后的內容進行分詞。TF-IDF[7](term frequency–inverse document frequency)是一種常見的文本挖掘技術。TF意思是詞頻(Term Frequency),表示詞語在文檔中出現的詞頻,IDF意思是逆文本頻率指數(Inverse Document Frequency),是衡量詞重要性指標。

4)經過3)分詞后形成數值型特征進行分組聚類處理。日志中記錄了很多相似的錯誤事件,可以進行聚類處理。日志文本信息豐富,形成的數值型特征矩陣維度高,聚類計算量大。而K-means聚類算法能夠并行化處理,聚類速度快,spark機器學習庫里面集成了該算法,方便進行內存迭代調優。K-means算法[8]初始化中心K是人為選取的,最優K值是當走HSMM模型預測路線的預測準確率收斂于某一個值。對事件聚類的過程如圖4所示。

經過聚類處理后,可以知道每個事件到底屬于哪一個類,然后根據每個事件所標記的時間,就可以展示出時間事件序列。用上圖4中的a,b,c三個類進行舉例子,假設標記的時間先后順序為[m1,m2,m3,m5,m9,mk],那么經過聚類后所展示[m1,m2,m3,m5,m9,mk]時間事件序列如圖5所示。

5)基于4)聚類的數據結合標記時間,形成時間事件序列。

6)故障預測。故障預測的本質是實時獲取的事件序列是否包含有故障有關的序列,5)形成的時間事件序列作為預測的輸入數據。知識庫預測原理為FST中進行匹配查詢(%failSequence%=R),如果查詢有,會通過typeId關聯到typeContent,返回預測結果的具體內容。HSMM預測原理為系統的一種類型的狀態[si]對應一個 HSMM分類模型[λi],將實時獲取的時間事件序列O代入[p(o/λi)],由計算概率最大的[λi]得到系統狀態[si]。其預測示意圖如圖6所示。

3.2.2 知識庫完善

如果組件運行出現了問題,首先是根據typeId從知識庫表TIK里面去尋找對應的解決方案knowledge,如果到知識庫庫里面找不到解決方案,維護人員也不知道如何解決的情況下,點擊故障解決模塊中的網上搜尋按鈕。系統會獲取異常日志errorLogs,調用自動化測試工具selenium[9],將errorLogs作為關鍵詞在網上檢索解決方案,相對人為手動復制粘貼errorLogs到網上檢索而言,方便快捷。當到網上順利找到了對應的解決方案knowledge,維護人員將knowledge通過接口添加到TIK中,完善知識庫,其過程如圖7所示。

不同的瀏覽器選擇不同的selenium驅動,搜索網站的網址,網站的搜索框Xpath,搜索按鈕的Xpath(瀏覽器審查元素,然后復制元素Xpath獲取),寫入到配置文件中,讓程序讀取,如圖7所示。維護人員沒有配置的話,遵守約定優于配置的原則,默認是從百度上搜索解決方案。其實現的核心代碼如下:

System.setProperty(瀏覽器selenium驅動地址);

WebDriver driver=new 瀏覽器驅動

driver.get(搜索網站網址);

WebElement input =driver.findElement(By.xpath(搜索框Xpath));

input.sendKeys(errorLogs);

WebElement button = driver.findElement(By.xpath(搜索按鈕Xpath));

button.click();

3.2.3云日志檢索

云日志很明顯的一個特點是數據量大,如果用傳統的關系型數據庫存儲可能存在查詢響應慢和存儲空間不足等問題。本系統采用的是elasticsearch[6]進行日志的存儲,可以實現日志的快速檢索功能。另外,如果還有其他需求的話,可以下載kibana(kibana版本號和elasticsearch的版本號要一致),配置kibana.yml中的elasticsearch url,可以對存儲在elasticsearch中的日志進行可視化分析。Kibana和本文提到的分析系統是相互獨立的,輔助分析云日志。

4實驗結果及其比較

單機部署的OpenStack云基礎環境,通過創建和刪除云實例操作,循環反復50次后所產生的日志數據源進行實驗。

用準確率(Precision),召回率(Recall),F-measure來衡量故障預測的結果。

張之宣提出的HSMM[5]和本文中KDB+HSMM就預測結果(知識庫預測結果趨于穩定后)進行比較,結果如表4所示。

5 結語

通過整合Flume,Kafka,Spark Streaming大數據分析組件,搭建了一個實時云日志分析系統,可以集中多源日志,進行日志檢索和異常預測,提供一套異常解決方案。日志檢索模塊,基于elasticsearch引擎實現,可以水平擴展,提升存儲能力。異常預測模塊是基于KDB+HSMM,較單獨HSMM[6]而言,能夠提高一點預測的準確度,顯示即將發生異常的具體內容。不過,從實驗結果中可以看出異常預測的準確度還是很低,另外HSMM預測路線的知識庫豐富需要靠人工操作接口去補充,靈活性存在明顯的不足,還需要進一步研究,提高預測的準確度和知識庫豐富的靈活性。

參考文獻:

[1] 王志健.基于Openstack平臺的入侵檢測系統的設計與開發[D].蘇州:蘇州大學,2017.

[2] 王智遠,任崇廣,陳榕,等.基于日志模板的異常檢測技術[J].智能計算機與應用,2018,8(5):17-20,24.

[3] Shetty S . Auditing and Analysis of Network Traffic in Cloud Environment[C]// IEEE Ninth Word Congress Services. IEEE, 2013:235-258.

[4] Wang X Y,Zhang J,Wang M B,et al.CDCAS:a novel cloud data center security auditing system[C]//2014 IEEE International Conference on Services Computing. 27 June-2 July 2014, Anchorage, AK, USA. IEEE, 2014:605-612.

[5] 張之宣.云計算環境下實時日志分析系統的設計與實現[D].杭州:浙江大學,2016.

[6] 梁文楷.基于Elasticsearch全文檢索系統的實現[J].電腦編程技巧與維護,2019(6):116-119.

[7] 葉雪梅,毛雪岷,夏錦春,等.文本分類TF-IDF算法的改進研究[J].計算機工程與應用,2019,55(2):104-109,161.

[8] 俞皓芳,孫力帆,付主木.基于改進K-means++聚類的多擴展目標跟蹤算法[J].計算機應用,2020,40(1):271-277.

[9] 姜文,劉立康.基于Selenium的Web軟件自動化測試[J].計算機技術與發展,2018,28(9):47-52,58.

【通聯編輯:唐一東】

主站蜘蛛池模板: 欧美专区日韩专区| 国产成人AV综合久久| 亚洲天堂成人| 三级欧美在线| 国产欧美日韩综合一区在线播放| 精品无码人妻一区二区| 全部无卡免费的毛片在线看| 亚洲天堂区| 久久久亚洲色| 免费一级毛片不卡在线播放| 午夜毛片免费观看视频 | 一级毛片免费播放视频| 亚亚洲乱码一二三四区| 亚洲第一视频网| 九九线精品视频在线观看| 69av在线| 国产乱人伦AV在线A| 免费午夜无码18禁无码影院| 亚洲色成人www在线观看| 午夜福利网址| 十八禁美女裸体网站| 无码福利日韩神码福利片| 久久久精品国产亚洲AV日韩| 国产欧美日韩综合在线第一| 午夜日本永久乱码免费播放片| 国产精品美女在线| 国产网友愉拍精品视频| 欧美另类图片视频无弹跳第一页| 天天综合网色| 亚洲综合一区国产精品| 97综合久久| 色综合色国产热无码一| 国产男女免费视频| 日韩高清欧美| 国内视频精品| 人妻丰满熟妇αv无码| 色爽网免费视频| 精品亚洲欧美中文字幕在线看| 久久精品这里只有国产中文精品| 亚洲欧美另类日本| 亚洲六月丁香六月婷婷蜜芽| 欧美乱妇高清无乱码免费| 国产高清无码麻豆精品| 四虎永久在线精品影院| 狠狠色香婷婷久久亚洲精品| 午夜毛片免费观看视频 | 黄色成年视频| 老司国产精品视频91| 国精品91人妻无码一区二区三区| 午夜国产大片免费观看| 性欧美久久| 亚洲VA中文字幕| 91毛片网| 国产精品毛片一区| 制服丝袜在线视频香蕉| 中字无码av在线电影| 国产流白浆视频| 在线观看热码亚洲av每日更新| 久久久久国产精品熟女影院| 日韩成人免费网站| 国产成人AV男人的天堂| 人妻丰满熟妇av五码区| 国产精品刺激对白在线| 国产黑丝一区| 亚洲高清在线天堂精品| 91小视频在线观看| 自拍亚洲欧美精品| 久草视频中文| 奇米影视狠狠精品7777| 中文字幕无码中文字幕有码在线| 无码久看视频| 亚洲女同一区二区| 高清欧美性猛交XXXX黑人猛交 | 久热中文字幕在线| 狠狠五月天中文字幕| 欧美午夜视频在线| 久久免费看片| 无码国内精品人妻少妇蜜桃视频| 综合色在线| 99久久精品国产精品亚洲| 亚洲视频在线青青| 亚洲色大成网站www国产|