999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Plane-Gaussian神經網絡的網絡流狀態監測

2017-05-24 14:45:22楊緒兵顧一凡
計算機應用 2017年3期
關鍵詞:分類實驗方法

楊緒兵,馮 哲,顧一凡,薛 暉

(1.南京林業大學 信息科學技術學院,南京210037; 2.東南大學 計算機科學與工程學院,南京210096) (*通信作者電子郵箱xbyang@njfu.edu.cn)

基于Plane-Gaussian神經網絡的網絡流狀態監測

楊緒兵1*,馮 哲1,顧一凡1,薛 暉2

(1.南京林業大學 信息科學技術學院,南京210037; 2.東南大學 計算機科學與工程學院,南京210096) (*通信作者電子郵箱xbyang@njfu.edu.cn)

針對復雜網絡環境下網絡流監測(分類)問題,為實現多個類別直接分類以及提高學習方法的訓練速度,提出了一種隨機的人工神經網絡學習方法。該方法借鑒平面高斯(PG)神經網絡模型,引入隨機投影思想,通過計算矩陣偽逆的方法解析獲得網絡連接矩陣,理論上可證明該網絡具有全局逼近能力。在人工數據和標準網絡流監測數據上進行了實驗仿真,與同樣采用隨機方法的極限學習機(ELM)和PG網絡相比,分析與實驗結果表明:1)由于繼承了PG網絡的幾何特性,對平面型分布數據更為有效;2)采用了隨機方法,訓練速度與ELM相當,但比PG網絡快得多;3)三種方法中,該方法更有利于解決網絡流監測問題。

Plane-Gaussian人工神經網絡;極限學習機;隨機投影;全局逼近;分類精度

0 引言

隨著互聯網發展,生產應用中產生了大量的數據,諸如來自于金融市場、網絡監控、電信數據、傳感器網絡等場景。由于此類數據,亦稱之為流(data stream),具有實時、高速、連續和動態等特性,加之協議的形式和種類繁多,以及新協議不公開且不遵守已有的協議規范,使得經典的數據管理和分析技術乏力甚至失效,因而該領域的研究極具挑戰性,針對此類研究現已逐漸演變成為新的研究熱點[1-3]。有別于一般數據,針對流數據的研究,困難主要表現在:1)計算機有限的存儲容量無法存儲和計算海量數據;2)網絡數據流的高維易造成維數災難問題;3)數據在采集和傳輸過程的數據受噪聲污染問題;4)因為數據流的變化實時且連續,極易造成學習算法的欠學習問題;5)數據類別多,僅通過一對一(one-vs-one)或一對多(one-vs-all)擴展的兩分類學習方法難以勝任此類問題。

已有的研究方法中,機器學習被認為最具有研究潛力[4],研究成果表明,由于人工神經網絡具有諸如全局逼近性、網絡結構簡單、可直接用于多分類或回歸問題,在網絡流分類方法應該具有更好的應用前景,如Bayes、徑向基函數(Radial Basis Function, RBF)和反向傳播(Back-Propagation, BP)網絡等,但以上網絡存在訓練時間過長等問題,自極限學習機(Extreme Learning Machine, ELM)問世以來[5-7],現已引起普遍關注,ELM采用隨機的方法設置網絡權及閾值,具有全局逼近能力,采用偽逆方法計算輸出層權矩陣,相對于BP網絡,訓練時間大幅度縮短。Plane-Gaussian (PG)網絡[8]是先進行平面聚類[9],獲得PG激活函數的參數,再采用偽逆的方式計算網絡輸出權矩陣。該網絡同樣具有全局逼近能力。實驗證明,該網絡與BP、RBF具有相當的分類能力,對于平面型分布的數據,該網絡的分類性能顯著優于前二者,而訓練速度與RBF相當,但比BP快得多。鑒于ELM的隨機選取輸入權值和閾值策略,本文擬在PG網絡中放棄平面聚類方法,對PG激活函數的權參數和閾值采用隨機方法,并據此發展出一個新的神經網絡RandPG(Random PG)。由于PG神經網絡在訓練過程中需要先聚類,訓練時間較長;而ELM雖然先隨機抽取再優化網絡權值,但在幾何上缺乏明確的模型解釋,同時,兩種方法在隱層節點數的選擇上,目前還只能依賴經驗。本文擬結合兩種方法,借鑒ELM中網絡參數隨機選擇的方式,克服PG網絡訓練過程中的需要聚類的缺點,在PG網絡中引入了隨機投影的思想,提出了基于隨機投影的平面高斯神經網絡RandPG,它同樣具有全局逼近能力。與PG網絡相比較:1)它避免了聚類,訓練時間大幅度縮短;2)隨機選擇投影,有利于突破陷入局部最優解的限制;3)不需要隨機選擇隱節點個數,與類別個數相同。與ELM相比較:1)RandPG網絡幾何意義明確;2)能夠勝任多分類問題,且無需考慮隱節點個數選擇問題;3)繼承了PG網絡對平面型分布數據的分類能力,效果顯著優于ELM。最后,本文將三種算法分別在平面型數據集和網絡流數據集上進行對比實驗,并測試和分析該方法在網絡數據流上的性能。

1 相關工作

1.1 極限學習機

ELM是一種新的機器學習方法,具備以下四個特點[7]:1)極限學習機從理論上探討了神經網絡在學習過程中隱節點是否需要調整的問題;2)該方法既可用于單隱層前饋網絡,又適用于多隱層前饋網絡;3)超限學習機的學習構架可拓展到特征學習、聚類、回歸和分類等問題;4)相比于超限學習機,支持向量機(Support Vector Machine, SVM)和最小二乘支持向量機(Least Square Support Vector Machine, LS-SVM)趨向于得到次優解。

(1)

以概率1的可能性成立。其中的hi(aiTx+bi)為激活函數,它有能力分隔具有任何形狀的不連通區域,ai為輸入網絡權向量,bi為對應的閾值。

對于分類問題,式(1)可修改為如下最小化問題:

(2)

其中y為x的類別標號。

1.2PG神經網絡

在平面聚類方法(k-Plane Clustering,kPC)[9]基礎上,采用“平面原型”代替RBF網絡的“點原型”的一種人工神經網絡模型(Plane-Gaussian NN)。該網絡具有全局的萬能逼近能力,同時還有自身的特點,如局部性等。由于兼有多層感知機(Multi-layer Perceptron, MLP)與RBF網絡的部分特點,PG網絡為這兩種不同類型的網絡建立了聯系的橋梁。從對先驗知識的適用性而言,RBF網絡更適合高斯分布的數據,而PG網絡則更適合子空間分布的數據。

kPC聚類方法需要不斷迭代計算k個聚類超平面,即隨機產生k個平面,將n個樣本歸為k個簇(樣本歸簇),每個簇計算出超平面(聚類更新),再進行樣本歸簇,再計算簇的超平面,直到每個簇內的樣本不再變化為止。如此,存在如下兩個問題:1)聚類超平面的求解方法僅能保證次優;易于陷入局部極小解;2)反復迭代過程需要耗費大量的訓練時間。

ELM和PG網絡存在如下異同點。相同的是:1)類別標號采用0-1編碼方式;2)輸出層權矩陣計算方法一樣,都是計算矩陣偽逆來獲得輸出矩陣。不同點在于:1)輸入權值不同,ELM采用隨機方式;而PG網絡與RBF一樣,權值均置為1;2)激活函數不同,ELM方法可采用多種激活函數,常用sigmoid函數,而PG網絡用的是“平面原型”思想,采用的激活函數稱之為平面高斯函數(Plane-Gaussian Function),該函數的參數需要通過kPC聚類方法計算。

鑒于以上分析,本文擬將隨機投影技術與PG網絡結合起來,即放棄PG激活函數的權值不再通過聚類獲得,而是采用隨機投影方法來完成。下文中將從網絡模型構造、全局逼近能力、性能分析等方面來介紹隨機PG網絡。

2 RandPG:隨機PG網絡模型

(3)

2.1RandPG網絡模型

由PG網絡結構定義,該類型網絡的數學模型描述如下:

(4)

其中:c為類別個數。由式(4)知,wi,γi為隱層的學習參數,在PG網絡中該參數由kPC聚類算法解得,因而在訓練網絡時需要耗費大量的時間。RandPG將放棄聚類方法獲得網絡權值,借鑒類似于ELM的隨機選擇的方法。

在訓練階段,當式(4)中j取遍{1,2,…,n}時,可得線性方程組,以矩陣記錄如下:

O=UTΦ

(5)

2.2RandPG的全局逼近性

文獻[7]的全局逼近定理描述如下。

定理2 形如式(4)的連續光滑函數G,在線性空間Rd的有界閉區域C(Id)內是稠密的,即對任給的非平凡連續函數f∈C(Id)和任給的ε>0,總存在一組合適的ui,使式(6)成立:

(6)

從定理的證明過程可知,逼近中只與u的選擇有關,與函數G的參數選擇無關。當然,此結論在隱節點個數趨于無窮時成立??闪⒌萌缦峦普?。

推論1 式(6)中隨機選擇一組參數{(wi,γi)|wi∈Rd,γi∈R},亦能保證存在一組合適的ui,使得不等式成立。

2.3RandPG算法

以上內容總結為一個學習算法,描述如下。

輸出:輸出權矩陣U。

步驟1 隨機產生一組{(wi,γi)},i=1,2,…,c;

步驟2 按式(5)計算矩陣Φ;

步驟3 計算U,通常采用矩陣偽逆形式,即U=(YΦ+)T,Φ+為Φ的偽逆,實驗部分采用Φ+=(ΦTΦ)-1ΦT來計算。按RandPG算法,PG網絡的輸出連接權,它是通過隨機指定激活函數參數完成的,無需要像PG網絡采用聚類方法獲得,因此,按此方式的訓練神經網絡,學習速度較大幅度提高。

測試階段,對于待歸類樣本z,連同訓練算法中的{(wi,γi)},代入式(3)、(5),計算出輸出向量,重新整理為0-1編碼形式,得出歸類結果。

2.4RandPG性能分析

RandPG算法的實質是訓練神經網絡來逼近類別標記(如采用0-1編碼的向量形式,以方便區別多個類別),即期望網絡輸出與0-1編碼的類別標記一一對應,因此可在最小平方誤差(MinimumSquareError,MSE)的優化目標下完成,向量矩陣形式為:

(7)

將式(4)整理,并代入式(7)得:

(8)

可令式(8)的目標函數對u的導數為0,可立得:

u=(ΦTΦ)-1ΦTy

(9)

而且式(9)不僅是唯一解,而且形式上與矩陣偽逆的結果一樣,與ELM形式上也是一致的。

ELM采用隨機的方法來訓練前饋神經網絡,一舉突破了以往必須通過優化計算出網絡連接權,較之BP網絡,訓練速度提升了千百倍,現已在很多領域中取得了成功應用。然而PG網絡的訓練方法仍沿用經典的神經網絡,沿用RBF網絡訓練方法,用“平面原型”聚類代替換“點原型”聚類,都有著清晰的幾何解釋。依據隨機投影理論,ELM的網絡的構造權向量(矩陣)及閾值隨機選擇方法,提出了PG網絡隨機版本RandPG,期望該方法一樣能夠大幅度提高PG網絡的訓練速度,下文中將從測試精度和訓練時間兩個方面,測試RandPG的真實性能。

3 實驗驗證

實驗數據分為兩個部分:一是人工數據,用于驗證PG和RandPG網絡的幾何特征,數據采用人工生成平面型分布數據;二是國際標準的網絡流數據集。因為RandPG算法思想來自于PG網絡,激活函數參數的隨機選擇方式與ELM相同,因此,將ELM和PG網絡作為實驗參照對象。如前文所述,期望在測試精度相當的前提下,能夠提高PG型網絡的學習速度。評價指標主要有兩個:測試精度和訓練時間,考慮到模型是否存在欠學習問題,把訓練精度和測試時間也一并列入評價指標。

3.1 人工數據集

兩類的人工數據集PlaneLine,數據分布如圖1所示,共有200個樣本,3維,分別抽樣于相互交叉的直線(標記為“+”)和平面(記為“°”),其中,直線分布的樣本抽樣于線段z1=(10z2)/17=(-10z3)/17,z1∈[-3,4],取100個樣本并在第二、三維分量上注入均勻分布噪聲,大小為[-0.3, 0.3]。平面分布的樣本抽樣于矩形區域z1+z2+z3+1=0,z1∈[-3,3],z2∈[-2,3],抽取100個樣本點,并在第三維分量上加入均勻分布噪聲,范圍為[-0.3, 0.3],zi是第i維分量。

PlaneLine數據集,隨機選擇一半為訓練集,剩下一半為測試集,重復50次,取平均結果。因數據量小,訓練時間上看不出顯著差異。PG的訓練和測試精度均在95%以上,RandPG次之,而ELM的測試精度僅為86%。值得一提的是,ELM和PG網絡的隱節點數可以自由選擇,而RandPG的隱節點數對應類別個數,因而是固定值。

圖1 人工數據集PlaneLine分布示意圖

3.2 網絡流數據

本數據來源于倫敦瑪麗女王大學的計算機科學研究組[10],是通過高性能網絡監視器收集得來的,匯集了約1 000個用戶連接互聯網的研究設備,采用全雙工千兆比特以太網鏈接連接互聯網。該網絡流數據共包括10個數據集,每條記錄有249項特征屬性。以24h為時間單位,記錄該時段內進出設備(全雙工)的數據包記錄,并記入10個文本文件中。表1簡要描述其特征屬性。10個數據集,類別數不完全一樣。每條記錄對應不同的網絡應用,分為WWW、EMAIL、TCP、GAME等10多個類別。

由于三種方法中都需要計算矩陣偽逆,其階數等于訓練樣本個數,所以批處理方式的樣本訓練集不宜過大,否則會導致實驗上計算內存不足的問題,因此本節實驗的訓練集規模采用樣本集的百分比表示,從訓練集的20%開始,直到訓練樣本數達到50%為止,記錄三種方法的訓練精度、測試精度、訓練時間、測試時間,時間單位采用CPUTIME,限于篇幅,僅列出50%時的實驗結果。由于RandPG無需選擇隱節點數,為公平比較,實驗中,將三種網絡的隱節點個數設置為相等。實驗重復50輪,結果取平均,訓練時間是計算每種方法的50次平均時間。

表1 網絡數據流屬性描述

表2中的數據是在固定了隱層節點數(節點數等于類別數)情況下的實驗結果。

表2 網絡流數據的實驗結果

從表2的實驗結果可知,PG網絡的精度高于ELM和RandPG,由文獻[7]可知,在已知類別數下,PG網絡激活函數的參數由kPC聚類算法獲得,較之隨機選取更為可靠,但其訓練時間卻是另外兩種方法的百千倍,而模型訓練完成以后的測試時間,三者差別并不明顯。隨機權值選擇上,ELM和RandPG方法,大多數網絡流數據結果中,RandPG要略弱于ELM方法,本質問題可能出現在激活函數平面參數選擇上。PG網絡中kPC計算得出的參數具有明顯的幾何解釋,即按平面擬合本類樣本的方式獲得,在迭代完成后,所得的擬合平面一定程度上更能反映出代表該類的樣本的能力,實驗效果上應該優于RandPG的隨機選擇方法。在實驗過程中,也發現了一種現象,50輪中偶爾會出現分類精度優于PG的情況,但在報告的平均結果中此現象被淹沒了。對此現象的解釋可能是局部最優解的問題,kPC算法的初始聚類平面是隨機產生的,迭代過程中僅能保證次優,存在陷入局部最小解問題;而RandPG采用隨機方法產生平面參數,有可能跳出局部最小解的限制。ELM算法與PG網絡一樣,每一輪的迭代過程中,分類精度都比較平穩,但RandPG變化幅度較大,此處報告的平均結果(為了符合實驗結果匯報習慣),在50輪的迭代過程中,至少有一半的分類精度應該高于此外報告的結果。另一方面,盡管也有研究結果表明,神經網絡訓練過程中更應該關注網絡結構而不是隱節點個數[11],然而,在實驗過程中,特別是對類別數較少情形,隱節點的個數對分類精度的影響仍然嚴重。

4 結語

在網絡流數據的多分類任務中,神經網絡方法具有獨特優勢,如它可以直接實現多分類任務,且無分類盲區,這些特點是擴充版本的二分類方法無法比擬的。本文提出了一種隨機的基于PG神經網絡的分類方法,以提高PG網絡的訓練速度。平面型數據上的實驗結果表明,相對于PG網絡,RandPG網絡不需要聚類,明顯縮短了訓練時間;RandPG網絡一定程序上也繼承了PG網絡的適用于平面型數據分類的特性。此外,由于RandPG存在諸如無需選擇隱節點個數、訓練速度快、可突破局部最小解限制等優點,該方法在網絡流數據分類任務中,仍值得推崇。

References)

[1] ZHANG J, XIANG Y, WANG Y, et al. Network traffic classification using correlation information . IEEE Transactions on Parallel and Distributed Systems, 2013, 24(1): 104-117.

[2] 趙國鋒,吉朝明,徐川.Internet流量識別技術研究.小型微型計算機系統,2010,31(8):1514-1520.(ZHAO G F, JI C M, XU C. Survey of techniques for Internet traffic identification . Journal of Chinese Computer Systems, 2010, 31(8): 1514-1520.)

[3] YAN Z, TRACY C, VEERARAGHAVAN M, et al. A network management system for handling scientific data flows . Journal of Network and Systems Management, 2016, 24(1): 1-33.

[4] ALSHAMMARI R, ZINCIR-HEYWOOD A N. How robust can a machine learning approach be for classifying encrypted VoIP . Journal of Network and Systems Management, 2015, 23(4): 830-869.

[5] FRANCFORT S, LIU T, GHAFARI J, et al. Extreme learning machines for Internet traffic classification〖.16- 01- 02〗. https://www.researchgate.net/publication/261985712_Extreme_Learning_Machines_for_Internet_Traffic_Classification.

[6] HUANG G B, CHEN L, SIEW C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes . IEEE Transactions on Neural Networks, 2006, 17(4): 879-892.

[7] HUANG G B. What are extreme learning machines? Filling the gap between Frank Rosenblatt’s dream and John von Neumann’s puzzle . Cognitive Computation, 2015, 7(3): 263-278.

[8] YANG X, CHEN S, CHEN B. Plane-Gaussian artificial neural network . Neural Computing and Applications, 2012, 21(2): 305-317.

[9] BRADLEY P S, MANGASARIAN O L.k-plane clustering . Journal of Global Optimization, 2000, 16(1): 23-32.

[10] MOORE A, ZUEV D, CROGAN M. Discriminators for use in flow-based classification 〖16- 02- 03〗. https://qmro.qmul.ac.uk/xmlui/bitstream/handle/123456789/5050/RR-05-13.pdf?sequence=1.

[11] BARTLETT P L. The sample complexity of pattern classification with neural networks: the size of the weights is more important than the size of the network . IEEE Transactions on Information Theory, 1998, 44(2): 525-536.

This work is partially supported by the National Natural Science Foundation of China (61375057) and Top-notch Academic Programs Project of Jiangsu Higher Education Institutions (TAPP).

YANG Xubing, born in 1973, Ph. D., associate professor. His research interests include pattern recognition, neural computation.

FENG Zhe, born in 1992, M. S. candidate. Her research interests include pattern recognition, neural computation.

GU Yifan, born in 1996. His research interest includes data analysis.

XUE Hui, born in 1979, Ph. D., associate professor. Her research interests include artificial intelligence.

Network traffic classification based on Plane-Gaussian artificial neural network

YANG Xubing1*, FENG Zhe1, GU Yifan1, XUE Hui2

(1.CollegeofInformationScienceandTechnology,NanjingForestryUniversity,NanjingJiangsu210037,China; 2.SchoolofComputerScienceandEngineering,SoutheastUniversity,NanjingJiangsu210096,China)

Aiming at the problems of network flow monitoring (classification) in complex network environment, a stochastic artificial neural network learning method was proposed to realize the direct classification of multiple classes and improve the training speed of learning methods. Using Plane-Gaussian (PG) artificial neural network model, the idea of stochastic projection was introduced, and the network connection matrix was obtained by calculating the pseudo-inverse analysis. Theoretically, it can be proved that the network has global approximation ability. The artificial simulation was carried out on artificial data and standard network flow monitoring data. Compared with the Extreme Learning Machine (ELM) and PG network using the random method, the analysis and experimental results show that: 1)the proposed method inherits the geometric characteristics of the PG network and is more effective for the planar distributed data; 2)it has comparable training speed to ELM, but significantly faster than PG network; 3)among the three methods, the proposed method is more suitable for solving the problem of network flow monitoring.

Plane-Gaussian (PG) artificial neural network; Extreme Learning Machine (ELM); random projection; global approximation; recognition accuracy

2016- 07- 25;

2016- 08- 02。

國家自然科學基金資助項目(61375057);江蘇高校品牌專業建設工程資助項目。

楊緒兵(1973—),男,安徽六安人,副教授,博士,主要研究方向:模式識別、神經計算; 馮哲(1992—),女,江蘇常州人,碩士研究生,主要研究方向:模式識別、神經計算; 顧一凡(1996—),男,江蘇無錫人,主要研究方向:數據分析; 薛暉(1979—),女,江蘇南京人,副教授,博士,主要研究方向:人工智能。

1001- 9081(2017)03- 0782- 04

10.11772/j.issn.1001- 9081.2017.03.782

TP391.4

A

猜你喜歡
分類實驗方法
記一次有趣的實驗
分類算一算
做個怪怪長實驗
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲看片网| 99尹人香蕉国产免费天天拍| yjizz视频最新网站在线| 欧美日韩精品一区二区视频| 精品亚洲欧美中文字幕在线看| 午夜日韩久久影院| 亚洲美女一级毛片| 午夜视频免费一区二区在线看| 欧美19综合中文字幕| 色综合a怡红院怡红院首页| 亚洲天堂视频网| 国产精品亚洲一区二区三区z| 午夜精品区| 中文字幕乱码中文乱码51精品| 黄色网在线| 在线观看视频99| 玖玖免费视频在线观看| 日本人妻丰满熟妇区| 亚洲无码视频图片| 亚洲日本www| 日韩av无码DVD| 欧美日在线观看| 无遮挡国产高潮视频免费观看| 亚洲男人在线| 91精品国产91欠久久久久| 美女视频黄又黄又免费高清| 国产熟睡乱子伦视频网站| 亚洲无码在线午夜电影| 在线视频一区二区三区不卡| 国产剧情国内精品原创| www亚洲精品| 国产乱人乱偷精品视频a人人澡| 久久伊人操| 日韩精品成人网页视频在线| 国产精品yjizz视频网一二区| 任我操在线视频| 久久9966精品国产免费| 国产超碰在线观看| 日本国产一区在线观看| 国产成人免费手机在线观看视频| 欧美日韩中文字幕在线| 好紧好深好大乳无码中文字幕| 97国产成人无码精品久久久| 免费人成网站在线高清| 欧美午夜小视频| 日韩A∨精品日韩精品无码| 国产精品理论片| 国产一区二区三区免费观看| 色婷婷在线影院| 亚洲国产av无码综合原创国产| 国产成人调教在线视频| 国产午夜不卡| 中文字幕无码制服中字| 亚洲婷婷丁香| 欧美日本视频在线观看| 亚洲精品福利视频| 秋霞国产在线| 国内精品免费| 国产精品主播| 亚洲中文字幕在线一区播放| 五月婷婷精品| 亚洲日韩AV无码精品| 91色在线观看| 国产第三区| 成人精品午夜福利在线播放| 欧美激情网址| 好久久免费视频高清| 波多野结衣无码中文字幕在线观看一区二区 | 青青草a国产免费观看| 色悠久久久久久久综合网伊人| 国产免费福利网站| 国产成人精品18| 国产特级毛片| 欧美国产成人在线| 91娇喘视频| 欧美综合区自拍亚洲综合天堂| 青青草原国产av福利网站| 日韩精品毛片| 亚洲Av综合日韩精品久久久| 亚洲区第一页| 92午夜福利影院一区二区三区| 国产成人高清在线精品|