999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于廣義回歸神經網絡的電網信息系統日志數據分析技術研究

2017-08-08 03:01:08鄒保平黃文思張文晉韓澤華程仲漢
電子設計工程 2017年13期
關鍵詞:分析系統

鄒保平,黃文思,張文晉,韓澤華,程仲漢

(國網信通億力科技有限責任公司 福建 福州350003)

基于廣義回歸神經網絡的電網信息系統日志數據分析技術研究

鄒保平,黃文思,張文晉,韓澤華,程仲漢

(國網信通億力科技有限責任公司 福建 福州350003)

針對目前電網信息系統處理日志數據量大且系統處理速度慢的問題,根據現有數據處理系統以及基于神經網絡的數據分析方法,通過利用Flume數據采集系統、主從結構模型HDFS和并行編程模式的MapReduce綜合支持的數據調用程序,優化傳統的廣義神經網絡算法,提高系統分析數據做出響應的速度。最后選取電網信息系統的部分樣本進行實驗測試:較其他數據處理算法來說,GRNN算法數據處理響應時間提高近52%,處理結果的準確性提高10%左右。

日志數據;廣義回歸神經網絡;電網信息系統;MapReduce

日志數據分析根據不同業務的具體需求,產生不同的數據分析架構[1]。目前,國內外都對日志數據采集及分析技術已經進行的比較深入的研究[2-3],提出了基于數據挖掘的日志采集及分析技術如ISS公司的SLM(Secure Log Manager)可將 Windows,Unix,Linux等多種操作系統的日志文件進行統一存儲和管理[4-5]。通過對日志數據分析技術20余年的研究,國內外研究 人 員 提 出 了 K-Means、FCM、SOM 聚 類 算 法 、Apriori以及基于神經網絡等日志數據分析算法[6]。但神經網絡的不穩定結構影響了它在判斷系統問題源方面的作用。因此本研究致力于日志數據基于廣義回歸神經網絡的分析[7],利用數據采集系統Flume進行日志數據采集,建立主從結構模型HDFS和并行編程模式的MapReduce綜合支持的數據調用程序,改進傳統的廣義神經網絡算法(GRNN)的結構層,優化算法流程,提高電網系統數據分析的速度以及準確性。

1 神經網絡下的日志數據分析

1.1 廣義回歸神經網絡

廣義回歸神經網絡(GRNN)是Donald基于徑向函數神經網絡[8]提出的一種新型神經網絡,其優點是在樣本數據量小的前提下,輸出結果也可以收斂[9]。它的結構形式一般有輸入層、隱含層、輸出層三層結構,信號從輸入層節點輸入隱含層節點,隨后信號在隱含層節點經過作用函數的作用產生局部響應,在接近作用函數核心范圍時輸入信號產生大量輸出,后經過輸出節點的簡單函數處理輸出。具體的算法步驟為:

第一步:在輸入層節點輸入j維的輸入向量(x1,x2,…,xj);

第二步:利用非參數密度估計法PDF估計器,確定隱含層的輻射狀作用函數f(x)的具體表達形式,處理輸入向量(x1,x2,…,xk);

第三步:將第二步輸出的信號向量(x1,x2,…,xk)傳遞給輸出層的非線性簡單函數處理;

第四步:計算神經網絡各層次節點傳播以及反向傳播的誤差,判斷計算誤差是否在誤差允許范圍之內。如果為假,則轉入第二步;如果該判斷命題為真,則結束算法。

1.2 日志數據分析技術

數據獲取技術的不斷發展帶來數據量不斷激增,使得數據的數量以及種類都在劇增,分析數據價值也成為熱點[10]。日志數據按照分析的實時性可分為實時分析和離線分析,其根本區別在于時效性[11]。實時性分析要求系統在數秒內反饋上億行數據的分析結果,這主要依靠包含大量傳統關系型數據庫的并行處理集群,亦可采用HDD的架構等較高配置的軟硬件,像EMC的Greenplum、SAP的HANA等。離線數據分析是指通常利用工具采集日志數據并導入專用的分析平臺分析,普遍應用于電力行業的各業務系統。

面對大量數據,由于數據格式轉換的成本太高,傳統的ETL工具像 Scribe、Kafka、Timetunnel、Chukwa等在性能上無法滿足分析需求。Hadoop是Apache旗下的一個開源分布式計算平臺[12-13],其核心是主從結構模型HDFS和并行編程模式的Map Reduce,用戶可以利用Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數據的處理。HDFS允許用戶以文件的形式存儲數據,文件在內部相當于被分割為若干數據塊,并且存放在一組DataNode上。其中,NameNode負責執行系統文件的空間操作以及數據塊映射到具體DataNode的過程工作,DataNode則需負責處理系統客戶端的文件讀寫請求。NameNode與DataNode統一調度進行數據塊的創建、刪除和復制工作。根據上述分析,HDFS體系的結構示意圖如圖1所示。

圖1 HDFS體系結構示意圖

2 日志數據分析算法

2.1 電網信息系統日志數據的收集存儲以及調用

針對整個系統的各業務操作系統產生的海量日志數據,為了滿足更高性能的需求,研究大型數據中心系統對海量日志數據的采集和傳輸技術[14-15],避免采集系統的單點失效等情況的出現顯得尤為重要。目前應用廣泛的分布式日志數據的采集技術主要有:基于Syslog協議的日志數據采集技術、基于SNMP協議的日志數據采集技術、基于OPSEC協議的日志數據采集技術以及基于開源分布的日志數據采集技術。電力行業的數據中心要收集所屬的業務系統的重要設備運作過程中產生的各類運行日志、事件日志、用戶使用日志以及出現的錯誤日志等日志數據,并根據日志數據的格式、內容等屬性對日志進行分類整理,建立統一的日志模型。其主要用到的是基于開源分布式日志采集系統Flume,研究大量日志數據的高速采集存儲過程,形成采集器Agent、收集器Collector、存儲器Storage三層架構系統,如圖2所示。

文中對于數據的處理是基于分布式基礎框架Hadoop分布式存儲與處理框架 MapReduce,它致力于實現大數據的并行處理,具有有效分割海量數據的優勢以及擴展性和系統可重用性。利用MapReduce調用HDFS中存儲的日志數據,首先根據程序配置具體信息,設置輸入輸出類型以及對應的Mapper和Reducer信息,預設主機地址、Zookeeper端口號、JobTracker信息等,具體的調用代碼如下:

圖2 基于Flume的日志數據采集系統框架

2.2 電網信息系統日志數據的神經網絡分析算法

在這里,改進傳統的廣義神經網絡算法的結構層,形成包含輸入層、模式層、求和層與輸出層四層神經元結構的新框架。首先假設網絡算法的輸入信號變量是 X=(xi)n×1,其輸出層對應的輸出信號變量Y=(yj)k×1,各層中的簡單分布單元的神經元數目就是輸入信號變量的維數。輸入層通過神經元將輸入信號傳遞給模式層,取修正參數為σ,則其傳遞神經元的傳遞函數為:

模式層中經傳遞函數處理過的信號依次傳輸到求和層,其連接權值和為1,設模式層的第i個神經元與求和層中第j個求和神經元之間的連接權值為oij,隨后求和層利用以下兩種求和函數對傳輸進來的信號進行加權求和,即:

輸出層將求和層的求和輸出相除,可得神經元j的輸出結果 yj,yj=sd/snj。

以上是改進廣義神經網絡的理論分析,具體算法描述如下:

Step1:初始化神經網絡,輸入信號xi到處理神經元路線節點j;

Step2:依照路線序號Iq=i搜尋線路網拓撲結構表中與模式層的路線節點j相對應的節點tj;

Step3:取每條路線Iq=i中的k個神經元節點t1,t2,…,tk,輸入信號xi經過傳遞函數作用輸出信號變量為pi,共n個變量作為要考察的相關變量。當i≤n時,轉至 Step2;當 i>n 時,進入 Step4;

Step4:確定模式層的第i個神經元與求和層中第j個求和神經元之間的連接權值oij;

Step5:在求和層對Step3中處理產生的n個輸出量利用兩種方式進行求和處理,分別輸出求和結果 sd、snj。當 j≤k 時,重復該步驟;當 j>k 時,進入Step6;

Step6:求和層的神經元節點輸出sd、snj的比值,即為神經元節點j的輸出結果yj,直至j=k,得到輸出信號向量 Y=(y1,y2,…,yk),算法結束。

3 實驗與分析

本次模擬實驗選取電網系統內的5臺分管不同業務項目的計算機業務節點機組成。在電網信息系統管理的日志數據庫中選取一個UCI數據集,該樣本集合包含Class1、Class2和Class3 3個分類類別,每個類中含有377 598條日志數據,每條日志數據有14個屬性。電網信息系統中的日志數據經過開源分布式日志采集系統Flume的采集以及系統內部整理,數據以以下存儲格式存儲在計算機系統,如表1所示。

表1 日志數據在計算機系統中的存儲格式

對于抽取的數據樣本分別利用K-Means、FCM、SOM聚類算法、Apriori算法以及GRNN算法,進行計算速度以及結果準確性測試,對于100次實驗結果分析整理得到其計算響應時間和準確度計算結果見表2所示,其中tmin、tmax、tavg分別表示系統數據處理的最短、最長以及平均響應時間。

表2 不同算法對于日志數據處理響應時間(s)以及準確度(%)

從表2可知,對于電網信息系統中存儲的多個用戶日志數據,本文改進的廣義回歸神經網絡算法(GRNN)調取以及分析日志數據集響應的平均時間以及處理結果的準確性明顯高于其他算法。

另外,對于各種算法分析處理日志數據集的響應時間用折線圖來表現其大小,見圖3所示。

圖3 各算法處理日志數據集的響應時間比較/s

以上測試結果說明,證明廣義回歸神經網絡算法對于分析海量日志數據工作具有明顯優勢。在處理樣本日志數據過程中,其數據處理平均響應時間較以往算法提高近52%,處理結果的準確性提高近10%,因此可以說GRNN為電網信息系統等這類數據系統處理日志數據提出了一條有效的途徑。另外系統需要調整的參數比較少,操作簡單,計算速度快,這樣對于有利于系統中心對于各個業務操作系統反映的日志數據給出快速準確的處理結果,以便及時響應用戶日志數據反應的問題,提高電網信息系統的整體工作效率。

4 結 論

文中針對傳統神經網絡算法以及其他算法處理類似電網信息系統大量日志數據存在的處理速度慢以及算法結構不穩定得到問題,保存原有算法的優點,利用引進功能更為先進的數據采集技術,形成采集器Agent、收集器Collector、存儲器Storage三層架構系統,另外利用并行編程模式MapReduce調用主從結構模型HDFS中存儲的日志數據,優化傳統的廣義神經網絡算法,分析形成了電網信息系統這類數據系統處理日志數據的途徑算法GRNN,提高系統分析數據做出響應的速度。

[1]李德新.基于數據挖掘的網絡日志分析 [J].電腦知識與技術,2011,7(25):6074-6078.

[2]申德榮,于戈,王習特,等.支持大數據管理的NoSQL系統研究綜述[J].軟件學報,2013,24(8):1786-1803.

[3]鄧賓.網絡安全日志數據分析系統的探究 [J].網絡與信息工程,2014,3:43-44.

[4]師金鋼,鮑玉斌,冷芳玲.基于MapReduce的關系型數據倉庫并行查詢[J].東北大學學報自然科學版,2011,5(5):626-629.

[5]劉春靜,劉楓,張曙.基于陣列接收數據合并的寬帶DOA算法 [J].系統工程與電子技術,2101,32(7):1380-1383.

[6]張國鎖,周創明,雷英杰.改進FCM聚類算法及其在入侵檢測中的應用 [J].計算機應用,2009,29(5):1336-1338.

[7]張貞凱,田雨波,周建江.基于改進廣義回歸神經網絡和主成分分析的寬帶 DOA估計[J].光電子·激光,2012,4(23):692-697.

[8]楊金玲,曹先革,曹先密.徑向基神經網絡GPS高程轉換方法[J].地理空間信息,2010,8(6):65-66.

[9]王新志,祝明坤,曹爽.基于廣義回歸神經網絡的GPS高程轉換 [J].大地測量與地球動力學,2011.31(6):113-116.

[10]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36(6):1125-1138.

[11]胡文瑜,孫志揮,吳英杰.數據挖掘取樣方法研究[J].計算機研究與發展,2011,48(1):45-54.

[12]郝樹魁.Hadoop HDFS和MapReduce架構淺析[J].郵電設計技術,2012,7(7):37-42.

[13]陳吉榮,樂嘉錦.基于MapReduce的Hadoop大表導入編程模型[J].計算機應用,2013,33(9):2486-2489.

[14]周康,李覬,董科軍,等.一種基于Thrift的日志收集分析系統 [J].科研信息化技術與應用,2015,6(2):19-27.

[15]王正也,李書芳.一種基于Hive日志分析的大數據存儲優化方法 [J].設計研究與應用,2014,11(35):94-101.

Analysis of data network information system logs based on generalized regression neural network

ZOU Bao-ping,HUANG Wen-si,ZHANG Wen-jin,HANG Ze-hua,CHENG Zhong-han
(State Grid Info-Telecom Greate Power Science and Technology Co.,Ltd,Fuzhou 350003,China)

In view of the grid system processing large volumes of logs data and slow processing speed in the current,based on existing data processing systems,and data analysis methods based on neural network,by using the Flume data acquisition system,the main structural model from HDFS and parallel programming mode MapReduce support integrated data calling program to optimize the traditional generalized neural network algorithm,and to improve the system for analyzing data to respond speed.Finally,select some samples of grid information system to carry out experimental testing:compared with other algorithms for data processing,GRNN data processing algorithm response time increased nearly 52%,to improve the accuracy of the results of about 10%.

log data;generalized regression neural network;network information system;MapReduce

TN393

:A

:1674-6236(2017)13-0114-04

2016-05-26稿件編號:201605259

鄒保平(1971—),男,福建龍巖人,高級工程師。研究方向:數據中心,大數據。

猜你喜歡
分析系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
隱蔽失效適航要求符合性驗證分析
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
半沸制皂系統(下)
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
電力系統及其自動化發展趨勢分析
中西醫結合治療抑郁癥100例分析
主站蜘蛛池模板: 在线亚洲小视频| 国产成人三级| 日韩色图区| 91丝袜乱伦| 国产尹人香蕉综合在线电影 | 丰满人妻被猛烈进入无码| 91口爆吞精国产对白第三集| 久久99精品久久久久纯品| 亚洲欧洲综合| 国产一区二区三区精品欧美日韩| 国产欧美日韩91| 伊人色天堂| 丁香六月综合网| 男人天堂亚洲天堂| 亚洲人在线| 免费人成黄页在线观看国产| 成人av专区精品无码国产| 亚洲五月激情网| 国产成人精品高清在线| 亚洲精品天堂自在久久77| 一区二区三区成人| 欧美一区二区三区不卡免费| 亚洲精品成人片在线观看| 三级视频中文字幕| 2021国产精品自产拍在线观看| 97一区二区在线播放| av一区二区三区高清久久| 亚洲欧洲国产成人综合不卡| 国产在线第二页| 亚洲无码在线午夜电影| 蝌蚪国产精品视频第一页| 欧美中文字幕在线视频| 欧洲极品无码一区二区三区| av在线无码浏览| 亚洲第一av网站| 看你懂的巨臀中文字幕一区二区| 国产精品一区不卡| 日韩美一区二区| 国产精品视频999| 亚洲天堂高清| 亚洲天堂免费在线视频| 成人福利在线视频| 欧美激情,国产精品| 精品91视频| 亚洲第一天堂无码专区| 午夜性刺激在线观看免费| 国产香蕉在线视频| 女人毛片a级大学毛片免费| 99久久性生片| 奇米影视狠狠精品7777| 免费观看国产小粉嫩喷水 | 青青操国产| 国产高清在线观看91精品| 午夜三级在线| 欧美人在线一区二区三区| 欧美成人精品一区二区| 在线欧美国产| 91色老久久精品偷偷蜜臀| 一本二本三本不卡无码| a毛片免费看| 亚洲日韩国产精品综合在线观看| 欧美精品v日韩精品v国产精品| 亚洲国产亚洲综合在线尤物| 日本道综合一本久久久88| 成人福利在线视频| 在线欧美日韩| 国产一级毛片在线| 亚洲人成网站日本片| 欧美成人免费一区在线播放| 免费国产无遮挡又黄又爽| 久久人人妻人人爽人人卡片av| 婷婷六月在线| 狠狠躁天天躁夜夜躁婷婷| 亚洲国模精品一区| 国产小视频在线高清播放| 免费99精品国产自在现线| 东京热高清无码精品| 国产一区在线观看无码| 国产资源站| 九色免费视频| 中文字幕免费播放| 久久特级毛片|