999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹的日志分析方法

2020-07-14 00:27:42樊建昌余粟
軟件導刊 2020年1期
關鍵詞:大數據

樊建昌 余粟

摘 要:為了解決服務器運行過程中由于性能故障造成服務質量下降的問題,提出一種基于決策樹的日志分析方法,以服務器日志文件中記錄服務器關鍵性能指標的數據為研究對象,利用決策樹中常用的ID3、C4.5和CART 3種算法預測服務器未來性能指標發展趨勢。實驗結果表明,在實際運行過程中,C4.5算法對服務器性能指標數據預測的準確率和召回率最好,分別達到了92.23%和95.37%,在3種決策樹算法中擁有最高的準確率與召回率,且相比傳統開發人員從日志文件中尋找故障的方法,準確率提高了20%左右,因此能夠更好地預測服務器系統性能指標發展趨勢。通過該方法可提前感知系統運行狀況,并及時作出調整,從而有效降低實際生產過程中服務器故障發生概率,提高服務質量。

關鍵詞:決策樹算法;日志分析;Spark;大數據

DOI: 10. 11907/rjdk.191343

開放科學(資源服務)標識碼(OSID):

中圖分類號:TP301

文獻標識碼:A

文章編號:1672-7800(2020)001-0099-04

0 引言

隨著互聯網的快速發展,信息系統在人們日常生活中發揮著越來越重要的作用。信息系統服務器一旦發生故障,將會嚴重影響公司日常業務的開展。因此,對運行中的服務器定期進行安全檢查,確定服務器當前運行狀況以及可能存在的安全隱患顯得尤為重要[1]。

在軟件系統運行過程中,軟件系統各部分運行狀態以及運行過程數據都會以日志形式保存下來[2]。根據統計,在Cithub等常用開源平臺上,絕大部分開源項目文件的每30行代碼中,就有一行用來記錄項目運行過程中產生的日志[3]。此外,在實際生產領域,若重新創建與生產環境完全一致的開發環境,成本非常高昂,所以生產環境中打印的日志文件往往成為研究人員進行服務器故障診斷預測的唯一數據來源[4]。

自從有學者提出利用日志文件進行服務器故障診斷預測以來,基于日志文件分析系統故障的方法開始受到越來越多人重視。傳統由資深開發人員基于系統產生的日志文件查找系統潛在故障的準確率一般在70% - 80%之間[5-6],通過該方式進行故障分析,不僅費時費力,而且準確率不高。PREWETT[7]將專家知識表示為一系列規則進行故障診斷,規則可以人為擴展,并且是可解釋的,但該技術的缺點是不能診斷未知錯誤,知識庫也不易維護;Zhu等[8]將系統定義為數學表示,通過測試觀察到的行為驗證其是否滿足模型,該技術適合診斷應用級別問題,但模型構建需要對系統有深刻理解;韓凱等[9]利用經驗數據結合日志文件進行關聯分析,同時結合統計理論對網絡系統進行故障診斷,而不需要對系統內部或模型有深入了解,但其難以診斷系統的非穩態性故障。還有部分學者采用聚類方法分析日志文件,使用訓練數據確定系統狀態是否健康,找出故障潛在原因,該技術可以自動學習系統行為,但當數據特征維度變大時,精確度會下降[10-12]。如李剛等[13]將動態時間閾值和屬性相異度相結合對日志文件進行分析,診斷出系統運行過程中的短暫與間歇性錯誤,但該方法很大程度上依賴于參數校正;宋永生等[14]利用可視化數據生成圖表,由圖表進一步分析故障發生位置,該方法便于解釋與評估,但該方法最大的問題在于不能自動識別故障具體位置。

本文基于Spark分布式計算引擎[15],采用決策樹中常用的3種算法對系統產生的日志文件進行分析,并從召回率、準確率等方面進行對比,選擇準確率和召回率最佳的C4.5算法作為日志分析方法。該方法可以自動從原始日志文件中提取關鍵性能指標進行日志分析,對服務器運行狀態進行及時診斷,并對服務器可能發生的故障進行預測,具有良好的實時性和準確性。

1 決策樹算法

決策樹算法[16]是一種典型分類方法,首先對原始數據進行處理,并歸納生成可讀規則,該規則一般以樹的結構體現,所以稱為決策樹。當需要對新數據進行分類時,只需利用決策樹對新數據進行分析,即可得到分類結果,該方法已在大數據挖掘中得到廣泛應用。

決策樹是一個有向無環樹,樹的每個非葉節點對應訓練樣本集中的一個屬性,非葉節點的分支對應屬性的一個數值劃分,每個葉節點代表一個類,從根節點到葉節點的路徑稱為一個分類規則。決策樹構建主要通過對屬性選擇進行度量,目前屬性度量方式主要有3種:信息增益、信息增益率和Gini指標。

1.1信息熵

熵是物理學和信息論中的一個重要概念[17],用來衡量一個數據分布的無序程度。對于一個訓練樣本而言,其熵越小,則訓練樣本的無序度越小,即訓練樣本越有可能屬于同一類。信息增益即是一種通過樣本信息熵進行度量的方法,集合D中某個樣本屬于第k類樣本的概率為第k

1.3 C4.5算法

在ID3算法中,信息增益對取值數目較多的屬性有所偏好,當所有分支均只包含一個樣本時,分支純度最大,但該決策樹有一個明顯缺點,即不具備泛化能力,無法對新樣本進行預測。C4.5決策樹算法即是為了提高決策樹泛化能力而提出的[19],其采用信息增益率進行特征選擇。其中,增益率定義為:

其中,IV(a)稱為屬性a的固有值,當屬性a的潛在值數目越多,屬性a的固有值則越大。在具體算法實現過程中,首先從候選劃分屬性中找出信息增益率高于平均水平的屬性,再從中選擇增益率最高的屬性作為最終數據分類依據。

1.4 CART算法

CART決策樹算法采用Gini指數選擇屬性劃分,具體定義為:

Gini(D)反映了從數據集D中隨機抽取兩個樣本標記類別不一致的概率。Gini(D)越小,數據集D的純度越高[20]。

2 實驗平臺及數據準備

2.1 實驗平臺

圖1為實驗環境拓撲圖,其中客戶端使用Dell 7567筆記本,Liberty服務器與4臺Spark集群均使用宏碁Veriton臺式機,硬件配置為:雙核CPU,16G內存,2T硬盤。Liber-ty服務器部署WebSphere Application ServerV8.5服務器,提供Web服務。同時,Libertv服務器和4臺Spark集群都通過docker安裝Spark-2.2.0 -Hadoop-2.7與Hive 2.2.0,配置Master節點和Worker節點。

2.2 數據準備與數據清洗

本文選取某電商網站一年的交易服務器日志數據作為訓練數據。以Smin為時間間隔進行數據統計,共有105 120個實例,每個實例都有其標記數據,根據當天的系統性能狀況,由專業工程師進行標注。對于每個實例,選出32 000個能夠體現系統性能的屬性。由于日志分析系統是根據性能指標的歷史趨勢進行預測的,對105 120個實例以7天為周期向前回溯,可以重疊,最終生成103 392個實例。

在日志提取過程中,對于未提取出來的數據,本文將以null的形式展現出來。在進行機器學習之前,以不影響總體數據分布為前提,對未提取出來的日志數據作殘缺值處理。由于日志數據所有屬性均為數值類型,在實際操作中以7天為一個周期,在7天內某個數據屬性的殘缺值出現次數在3以下,則將當前屬性其它數值的平均值作為該屬性殘缺值,如果當前屬性的殘缺值數量在4個以上,則將其它相關屬性平均值作為當前屬性的殘缺值。在機器學習中,由于無關屬性會在很大程度上影響分類器性能,所以在機器學習之前進行屬性選擇是非常必要的,保留一些最相關的屬性,而將其它不相關或相關性非常小的屬性去除。

本文利用主成分分析法對日志數據進行清洗,通過旋轉變換對線性空間中的原始數據進行基變化,使變換后的數據投影在新坐標軸上,并使其方差最大化。剔除變換后方差最小的坐標軸,新坐標軸即為主成分[21]。主成分分析法是一種比較常見的降維方法,廣泛應用于機器學習的數據降維問題中。利用Spark MLlib工具箱對主成分分析法加以實現,對32 000個屬性進行降維操作,最終選取28 000個屬性進行最后的機器學習模型訓練。

3 實驗方法及結果

3.1 實驗流程

在日志分析模塊,所有性能指標都標注了是否有故障以及故障類型。由日志提取模塊生成的系統性能指標,可以根據歷史標注數據形成的訓練模塊判斷出當前系統是否有故障以及故障類型,所以日志分析模塊所采用的機器學習算法是監督學習。日志分析預測結果為當前CICS交易服務器在未來發生性能故障的概率,在實際訓練預測模型時,將原始數據集保留一部分作為測試集,剩余部分作為訓練集,在隨機選取訓練樣本過程中保證測試集和訓練集中每個樣本比例大致相同,以減小取樣造成的誤差。本文使用十折交叉驗證法生成預測模型,將原始數據源分成10份,進行10次訓練,每次選取其中1份作為測試樣本,其余9份作為訓練樣本。該方法既能夠保證每個樣本都有一次機會用于測試,又沒有樣本進行重復測試,因此試驗結果較好。

當模型建立之后,需要制定預測模型性能評估標準,本文使用誤差率衡量預測模型的預測效果,誤差率是指不正確分類在整個實例集中所占比例。在模型實際訓練過程中,可能產生4種結果,如表1所示。其中,數據集標簽有Yes和No兩種,分別表示服務器有性能故障與無性能故障;預測結果也有Yes和No兩種,分別表示服務器會產生性能故障和不會產生性能故障。因此,模型預測結果有4種:正確的肯定TP( True Positive)表示數據標簽是Yes,預測結果也是Yes的情況;正確的否定TN( True Negative)表示數據標簽是No,預測結果也是No的情況;錯誤的肯定FP( False Positive)表示數據標簽是No,預測結果是Yes的情況;錯誤的否定FN( False Negative)表示數據標簽是Yes,預測結果是No的情況。其中,正確的肯定和正確的否定都是正確的預測結果。另外,一般稱錯誤的否定為漏報,而稱錯誤的肯定為誤報。在日志分析系統中,漏報的代價大于誤報的代價,因為誤報只會浪費工程師時間以確認是否會產生性能故障,而漏報則會使工程師忽略問題,導致問題真實發生,產生嚴重后果。

3.2 實驗結果

本文使用Spark的MLlib工具箱,借助十折交叉驗證法對訓練數據集進行驗證,分別利用ID3、C4.5和CART 3種不同算法對數據進行訓練。結果如表2所示,從中可看出3種算法的準確率都高于85%,其中,C4.5算法的召回率最高,即能查出性能故障的概率更高。圖2為3種算法實驗結果的ROC曲線對比結果,從中可以看出C4.5算法在FPR較高時準確率更高,ID3算法在FPR較低時準確率更高。日志分析系統需要盡可能提高模型召回率,因此可以相應降低對準確率的要求,本文最終選取C4.5算法進行系統日志分析。

4 結語

由實驗結果可以看出,本文設計的日志分析方法可以自動對原始日志文件進行分析,從而解決了軟件工程師手動查取日志文件進行系統故障判斷較為費時費力的問題。相比傳統手工方法,其故障判斷的準確率及效率都提高了20%左右。使用分布式計算引擎進行日志分析,相對于傳統的串行查詢,提高了日志分析速度,而且易于擴展。未來可根據具體日志業務特點進行更加精準的建模,以進一步提高模型預測準確率,避免服務器故障的發生。

參考文獻:

[1]YUAN D,PARK S,ZHOU Y.Characterizing logging practices inopen-source software[C].Proceedings of the 34th International Con-ference on Software Engineering. IEEE Press, 2012: 102-112.

[2]SHARMA C, JHAPATE A.A survey: analytics of web log file throughmap reduce and Hadoop [Jl. International Journal of Scientific Re-search&Engineering Trends, 2016,2:2395-566X.

[3] LIN X,WANG P,WU B.Log analysis in cloud computing environ-mentWith Hadoop and Spark[C].Broadband Network&MultimediaTechnology (IC-BNMT), 2013 Sth lEEE International Conference omIEEE, 2013:273-276.

[4]SHUSHUAI Z H U,AKALI H,RUSSELL J,et al.Method and systemfor implementing collection-wise cessing in a log analytics system[ P].U.S. Patent Application 15/089, 129, 2017-1-5.

[5]廖湘科,李姍姍,董威,等.大規模軟件系統日志研究綜述[J].軟件學報,2016, 27(8):1934-1947.

[6]VULYA S P. JOSHI K, DI GIANDOMENICO F, et al. Failure diag-nosis of complex systems[M].Heidelberg: Springer, 2012: 239-261.

[7]PREWETT J E.Analyzing cluster log files using Logsurfer[C]. Pro-ceedings of the 4th Annual Linux Showcase& Conference. 2003:169-176.

[8]ZHU J,HE P, FU Q, et al. Learning to log: helping developers makeinformed logging decisions[C].Proceedings of the 37th InternationalConference on Software Engineering, 2015: 415-425.

[9] 韓凱,趙國慶,胡天宇,等,基于日志分析的虛擬機智能運維[J].信息與電腦:理論版,2018( 20):7-10.

[10]鐘雅,郭淵博.基于機器學習的日志解析系統設計與實現[Jl.計算機應用,2018,38(2):352-356.

[11] 馬文,朱志祥,吳晨,等.基于FP-Growth算法的安全日志分析系統[J].電子科技,2016.29(9):94-97.

[12] 張日如.聚類分析在Web日志中的應用[J].信息與電腦:理論版.2019(2):116-117.

[13]李剛,陳怡瀟,黃沛爍,等.基于日志分析的信息通信網絡安全預警研究[J].電力信息與通信技術,2018,16(12):1-8.

[14] 宋永生,吳新華.基于Pvthon的Moodle學習平臺日志分析[Jl.計算機時代,2018( lO):19-21,25.

[15]ZAHARIA M. CHOWDHURY M, FRANKLIN M J,et al. Spark:cluster computing with working sets[J].HotCloud, 2010, 10: 95.

[16]周志華機器學習[M].北京:清華大學出版社,2016.

[17]葉韻.深度學習與計算機視覺[M].北京:機械工業出版社,2017.

[18]張小軒.ID3算法的研究及優化[D].青島:山東科技大學,2017.

[19]沈亮亮,蒙祖強,張兵,等.面向不完備數據的改進C4.5算法研究[J].軟件導刊,2018.17(6):95-99.

[20]史選民,史達偉,郝玲,等.基于數據挖掘CART算法的區域夏季降水日數分類與預測模型研究[J].南京信息工程大學學報:自然科學版,2018,10(6):760-765.

[21]MENG X. BRADLEY J,YAVUZ B. et al. Mllib: machine learningin Apache spark[Jl. The Journal of Machine Learning Research,2016, 17(1):1235-1241.

(責任編輯:黃健)

基金項目:上海市科委創新行動計劃項目( 17511110204)

作者簡介:樊建昌(1994-),男,上海工程技術大學機械與汽車工程學院碩士研究生,研究方向為計算機視覺及數據挖掘。

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 国产成人麻豆精品| 国产人人乐人人爱| 国产av剧情无码精品色午夜| 91九色国产在线| 最新精品国偷自产在线| 国产中文在线亚洲精品官网| 亚洲男人在线天堂| 2020精品极品国产色在线观看| 白浆免费视频国产精品视频| 99er精品视频| 欧美一区二区三区香蕉视| 九九热精品免费视频| 国产AV无码专区亚洲A∨毛片| 福利在线不卡| 欧美激情成人网| 中文字幕欧美日韩| 亚洲欧美自拍一区| 98精品全国免费观看视频| 久久99蜜桃精品久久久久小说| 欧美啪啪网| 在线精品视频成人网| 国产小视频免费观看| 亚洲另类色| 老色鬼久久亚洲AV综合| 国产精品福利导航| 国产丰满大乳无码免费播放| 国产精品九九视频| 亚洲成aⅴ人在线观看| 无码在线激情片| 精品国产网| 一级片免费网站| 成人夜夜嗨| 欧美专区在线观看| 亚洲久悠悠色悠在线播放| 无套av在线| 国产精品妖精视频| 亚洲一级毛片免费观看| 亚洲天天更新| 五月婷婷丁香综合| 国产亚洲欧美日韩在线一区二区三区| 久久一本精品久久久ー99| 国产成人1024精品下载| 久久精品国产999大香线焦| 日韩欧美成人高清在线观看| AV熟女乱| 欧美国产综合色视频| 97国产在线视频| 亚洲精品福利视频| 亚洲综合极品香蕉久久网| 亚洲国产系列| AV不卡国产在线观看| 伊人久久青草青青综合| 国产爽爽视频| 99国产精品一区二区| 国产成人艳妇AA视频在线| 91久久性奴调教国产免费| 午夜a级毛片| 精品久久香蕉国产线看观看gif| 国产av无码日韩av无码网站| 67194亚洲无码| 狠狠五月天中文字幕| 国产在线97| 亚洲最大情网站在线观看| 欧美日韩理论| 视频一本大道香蕉久在线播放| 日本一区二区三区精品AⅤ| 亚洲一级毛片在线观| 精品国产免费第一区二区三区日韩| 少妇露出福利视频| 久久窝窝国产精品午夜看片| 91麻豆国产精品91久久久| 91网址在线播放| 亚洲制服丝袜第一页| 精品乱码久久久久久久| 伊人久久久久久久久久| 久久婷婷人人澡人人爱91| 亚洲精品国产自在现线最新| 超碰91免费人妻| 亚洲欧美日韩中文字幕一区二区三区| V一区无码内射国产| 国产亚洲精品自在线| 国产尤物视频在线|