999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于主成分分析的綜合網(wǎng)管系統(tǒng)設(shè)計及實現(xiàn)

2013-01-18 09:17:06孔祥云初鐵男
電信科學(xué) 2013年12期
關(guān)鍵詞:分析方法

孔祥云,初鐵男

(中國聯(lián)合網(wǎng)絡(luò)通信有限公司網(wǎng)絡(luò)分公司 北京 100033)

1 引言

隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)展,目前網(wǎng)絡(luò)管理系統(tǒng)中的數(shù)據(jù)規(guī)模正在經(jīng)歷著“爆炸性”增長,如何有效利用這些數(shù)據(jù)和網(wǎng)絡(luò)并利用數(shù)據(jù)中的信息輔助決策,已經(jīng)成為運營商迫切需要解決的問題;另一方面,隨著3GPP在LTE中提出自組織網(wǎng)絡(luò)(self-organized network,SON)的概念,未來的網(wǎng)絡(luò)維護(hù)、優(yōu)化、升級等工作也將越來越多地依靠網(wǎng)絡(luò)數(shù)據(jù)自發(fā)實現(xiàn),這給運營商對數(shù)據(jù)的處理和運用能力提出了更高的要求。

在這種情況下,各大運營商紛紛建立綜合網(wǎng)管平臺,實現(xiàn)了對網(wǎng)絡(luò)數(shù)據(jù)的有效采集和規(guī)范化存儲,并開始針對數(shù)據(jù)中的信息進(jìn)行數(shù)據(jù)挖掘。由于網(wǎng)絡(luò)中的數(shù)據(jù)具有時變、海量、非結(jié)構(gòu)化等特點,綜合網(wǎng)絡(luò)主要依靠數(shù)據(jù)倉庫進(jìn)行搭建。同時,基于數(shù)據(jù)倉庫的特點,聯(lián)機(jī)分析處理(on-line analytical processing,OLAP)成為綜合網(wǎng)管中數(shù)據(jù)挖掘的主要手段。

聯(lián)機(jī)分析處理的概念最早由關(guān)系數(shù)據(jù)庫之父Codd E F于1993年提出。Codd認(rèn)為,傳統(tǒng)基于SQL對大數(shù)據(jù)庫的簡單查詢已經(jīng)不能滿足用戶分析的需求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計算才能得到結(jié)果,而OLAP可以通過多維星型或雪花型模型實現(xiàn)OLAP“立方體”,使得龐大的記錄集合可以被迅速、高效地概括、分類、查詢和分析。因此,以O(shè)LAP為核心的數(shù)據(jù)存儲和分析工具逐漸成為當(dāng)前數(shù)據(jù)挖掘工具的主流。

然而,多維OLAP立方體的主要缺點是不夠靈活。立方體是通過預(yù)先將關(guān)系型數(shù)據(jù)表連接構(gòu)成固定、特定主題的結(jié)構(gòu)構(gòu)建的。由于實際網(wǎng)絡(luò)的業(yè)務(wù)靈活多變,導(dǎo)致業(yè)務(wù)模型經(jīng)常隨之發(fā)生變化,同時由于不同地區(qū)的業(yè)務(wù)特點有著較大的區(qū)別,在系統(tǒng)實際運行時,OLAP的性能通常很難達(dá)到預(yù)期水平。

OLAP對數(shù)據(jù)準(zhǔn)確性有著較高的要求,數(shù)據(jù)中的噪音和錯誤對OLAP的準(zhǔn)確性有著較為嚴(yán)重的影響。因此,OLAP對源數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)抽取/清洗/轉(zhuǎn)換處理的有效性都有較高的要求,這不僅提高了計算復(fù)雜度,也在很大程度上提高了數(shù)據(jù)分析系統(tǒng)的構(gòu)建難度和成本。

本文針對上述問題提出了一種基于主成分分析的電信網(wǎng)絡(luò)數(shù)據(jù)挖掘方法,通過數(shù)據(jù)壓縮去除數(shù)據(jù)中的噪音,最大程度地提取數(shù)據(jù)中蘊含的各種信息,繼而提高數(shù)據(jù)挖掘的效率以及算法的自適應(yīng)性。最后,通過對網(wǎng)絡(luò)中實際數(shù)據(jù)的分析,結(jié)合對比傳統(tǒng)OLAP方法的性能,證明本文所提方法能有效提升綜合網(wǎng)管的性能。

2 綜合網(wǎng)管數(shù)據(jù)分析的現(xiàn)狀及問題

OLAP可以使網(wǎng)絡(luò)管理人員對網(wǎng)絡(luò)建立起有效的模型,從而大大提高網(wǎng)絡(luò)管理人員管理網(wǎng)絡(luò)的效率。OLAP基于大量的數(shù)據(jù)分組和表間關(guān)聯(lián),使得網(wǎng)絡(luò)管理人員可以不去探究網(wǎng)絡(luò)事件和數(shù)據(jù)背后的原因,而把注意力放在數(shù)據(jù)之間的相關(guān)關(guān)系上,實現(xiàn)了運營商網(wǎng)絡(luò)管理水平的顯著提高。

OLAP通常基于數(shù)據(jù)倉庫,通過對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行多維分析獲取數(shù)據(jù)中的相關(guān)信息。其分析過程如下:首先根據(jù)數(shù)據(jù)分析的要求,通過預(yù)先設(shè)定的模型將數(shù)據(jù)構(gòu)造成數(shù)據(jù)立方體,繼而采用上卷、下鉆、旋轉(zhuǎn)等數(shù)據(jù)分析方法獲取數(shù)據(jù)中的相關(guān)性,最后將分析得到的結(jié)果返回給用戶。

OLAP的核心是數(shù)據(jù)立方體的構(gòu)建。為了準(zhǔn)確地從數(shù)據(jù)中獲取信息,需要采用多維方式組織和處理數(shù)據(jù),而數(shù)據(jù)立方體就是這樣一種數(shù)據(jù)的組織和呈現(xiàn)形式。數(shù)據(jù)立方體的模型就是以數(shù)據(jù)中多維模式中的一些屬性作為分析數(shù)據(jù)的維度,通過分析不同維度之間的關(guān)聯(lián)獲取數(shù)據(jù)中的信息。數(shù)據(jù)立方體的形式如圖1所示。

圖1 OLAP中的數(shù)據(jù)立方體模型

然而,在實際應(yīng)用中,由于業(yè)務(wù)和網(wǎng)管環(huán)境常常發(fā)生變化,分析模型也需要實時更新。而由于模型的重新定義和生成不僅需要大量的人力、物力成本,更需要花費大量的時間。因此,網(wǎng)絡(luò)管理人員對問題分析的角度總是滯后,使得運營商花費大量成本建立的綜合網(wǎng)管系統(tǒng)再次淪為死板的日常報表系統(tǒng)。

業(yè)務(wù)和環(huán)境的時變特性是構(gòu)建綜合網(wǎng)管系統(tǒng)的重要挑戰(zhàn),采用OLAP的最大難題就是無法自適應(yīng)地調(diào)整模型以適應(yīng)業(yè)務(wù)和環(huán)境的變化。因此,尋找一種具有自適應(yīng)能力的數(shù)據(jù)分析方法,成為綜合網(wǎng)管建立以及運營商數(shù)據(jù)分析水平提升亟待解決的問題。

3 基于主成分分析的數(shù)據(jù)分析方法

綜合網(wǎng)管的一個主要目標(biāo)是從采集到的數(shù)據(jù)中找到影響關(guān)鍵性能指標(biāo)(key performance indicator,KPI)的主要因素,KPI是運營商對網(wǎng)絡(luò)質(zhì)量和網(wǎng)絡(luò)狀況進(jìn)行判斷的主要指標(biāo),受到業(yè)務(wù)和網(wǎng)絡(luò)環(huán)境的影響,影響KPI的主要因素也常常發(fā)生改變,給網(wǎng)絡(luò)管理和維護(hù)工作帶來很大的困難。

在基于OLAP的綜合網(wǎng)管系統(tǒng)中,由于分析模型的構(gòu)建無法根據(jù)業(yè)務(wù)和網(wǎng)絡(luò)環(huán)境的變化進(jìn)行自適應(yīng)調(diào)整,加之?dāng)?shù)據(jù)中的噪音也常常對分析產(chǎn)生很大的不良影響,因此在系統(tǒng)實際運行時,其性能往往無法達(dá)到預(yù)期要求。為了解決這一問題,需要自適應(yīng)地去除數(shù)據(jù)中噪音的影響,并將數(shù)據(jù)中的主要信息提取出來。主成分分析(principal component analysis,PCA)正是這樣一種數(shù)學(xué)工具。

主成分分析,又稱主分量分析,是一種從多個變量中挑選出少數(shù)重要變量的多元統(tǒng)計分析方法。在實際的網(wǎng)管數(shù)據(jù)中,每個變量都可能在一定程度上影響KPI的變化。因此,可以采用主成分分析的方法挑選出對KPI影響最大的相關(guān)關(guān)系(即主成分)。基于主成分分析的思想,簡要介紹本系統(tǒng)的設(shè)計思路。

在相關(guān)關(guān)系分析的過程中,首先需要構(gòu)建樣本空間,通過數(shù)據(jù)分析方法分析各個參數(shù)對KPI所造成的影響。設(shè)Xi={x1,x2,…,xn}為第i次測量得到的樣本集,其中x1為KPI,而 x2,x3,…,xn為網(wǎng)管系統(tǒng)中采集到的參數(shù)。假設(shè)采集到n組樣本,于是有數(shù)據(jù)集:

其中

各數(shù)據(jù)與KPI之間的相關(guān)關(guān)系可以看作這一數(shù)據(jù)中蘊含的有關(guān)KPI的信息,由于數(shù)據(jù)中的信息由方差進(jìn)行表征,故計算協(xié)方差矩陣:

設(shè) Q 的特征值為 λ1,λ2, …,λn,其中|λ1|≥|λ2|≥…≥|λn|≥0 對應(yīng)的特征向量為 L1,L2,…,Ln,Li=(l1,l2,…,ln)(i=1,2,…,n)。由特征向量的特點可以知道,L1,L2,…,Ln為一組線性無關(guān)向量,因此可以以L1,L2,…,Ln為基,得到樣本空間 X 的線性變換 Y=(Yi1,Yi2,…,Yin)T,其中:

在Y中,非零元素的個數(shù)即X的秩,表征在采集到的數(shù)據(jù)中,可以找到的KPI與各參數(shù)可能的相關(guān)關(guān)系。其中,λ1對應(yīng)的Y1是第一主成分,由于λ1為最大的特征值,其對應(yīng)的線性變換Y1表征KPI與網(wǎng)絡(luò)參數(shù)最顯著的相關(guān)關(guān)系,而其他成分Y2…Yn表述KPI與網(wǎng)絡(luò)參數(shù)其他可能的關(guān)系,由于其相關(guān)關(guān)系較弱,可以認(rèn)為這些關(guān)系都是噪音。

下面需要對獲得的相關(guān)關(guān)系的有效性進(jìn)行分析,即判斷分析出來的相關(guān)關(guān)系是否具有充分的顯著性,即判斷第一主成分所占的比例。只有當(dāng)?shù)谝恢鞒煞值呢暙I(xiàn)率大于某一閾值時,才能認(rèn)為這一關(guān)系有效表征了KPI和網(wǎng)絡(luò)性能的相關(guān)性,若第一主成分的貢獻(xiàn)率不夠大,則認(rèn)為 KPI與網(wǎng)絡(luò)參數(shù) x2,x3,…,xn無明顯關(guān)系。

以二維樣本集X=(x1,x2)為例說明這一過程。設(shè)x1為基站的掉線率、x2為基站的CPU利用率,假設(shè)網(wǎng)管系統(tǒng)采集了n個基站的數(shù)據(jù),且其分布情況如圖2所示。對這一數(shù)據(jù)進(jìn)行分析,可以看到數(shù)據(jù)集的第一主成分遠(yuǎn)大于第二主成分,說明基站的CPU利用率與掉話率之間存在明顯的關(guān)系,其存在的線性相關(guān)性為第一主成分的斜率tanθ,通過這種方法實現(xiàn)了從大數(shù)據(jù)中獲取相關(guān)性的功能。

圖2 具有顯著相關(guān)關(guān)系的樣本集

另一方面,假設(shè)x1為掉線率而x2為通話時長的樣本集,且樣本分布如圖3所示。在這一樣本中,顯然第一主成分與第二主成分的大小差別不顯著,此時可以認(rèn)為通話時長并不影響掉線率。

圖3 沒有顯著相關(guān)關(guān)系的樣本集

綜上所述,通過對網(wǎng)絡(luò)中的采樣數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,可以準(zhǔn)確找到影響掉線率的參數(shù),并定量地分析出其相關(guān)關(guān)系。同時,通過海量數(shù)據(jù)的處理與分析,保證了最大程度地利用數(shù)據(jù)中的信息,并發(fā)掘出數(shù)據(jù)內(nèi)蘊含的各種相關(guān)信息。

4 本文方案的驗證與比較

4.1 基于實際數(shù)據(jù)的方案驗證

為了驗證本文所提出的綜合網(wǎng)管系統(tǒng)中的海量數(shù)據(jù)分析方法,以中國聯(lián)通某省公司的實際數(shù)據(jù)為例,闡述海量數(shù)據(jù)分析的實際過程以及分析效果。

分析數(shù)據(jù)為某省會城市10 000個小區(qū)的統(tǒng)計指標(biāo),希望通過海量數(shù)據(jù)分析技術(shù)得到影響掉線率(屬于KPI)的主要因素。為了簡化討論,只針對語音業(yè)務(wù)時長和數(shù)據(jù)業(yè)務(wù)流量兩個因素進(jìn)行分析。根據(jù)前文所述方法,分別構(gòu)建二元組樣本集。

樣本集1:(各個小區(qū)相鄰兩個月間總掉話次數(shù)的差值,各個小區(qū)相鄰兩個月間總數(shù)據(jù)流量的差值);

樣本集2:(各個小區(qū)相鄰兩個月間總掉話次數(shù)的差值,各個小區(qū)相鄰兩個月間總語音業(yè)務(wù)通話時長的差值)。

對兩組樣本進(jìn)行分析,提出各組樣本的主成分,以分析各參數(shù)對掉線次數(shù)的影響,結(jié)果如圖4、圖5所示。其中,每個點代表樣本集中的一個樣本,顏色深淺代表對于樣本點的不同分類。可以看到,在所分析的樣本中,各小區(qū)的掉線次數(shù)都會隨著數(shù)據(jù)流量的增大而增大;相對的,總通話時長的變化對總掉線次數(shù)幾乎沒有顯著影響。

圖4 無線小區(qū)掉線次數(shù)變化與數(shù)據(jù)流量變化的樣本集

傳統(tǒng)上,語音業(yè)務(wù)和數(shù)據(jù)業(yè)務(wù)都可能對小區(qū)的掉線產(chǎn)生影響,且語音業(yè)務(wù)造成的影響更為顯著。相關(guān)結(jié)果不僅有助于網(wǎng)絡(luò)管理人員更好地管理和配置網(wǎng)絡(luò),更為今后的網(wǎng)絡(luò)擴(kuò)容、網(wǎng)絡(luò)優(yōu)化提供了有益的參考,帶來了客觀的經(jīng)濟(jì)效益。

圖5 無線小區(qū)掉線次數(shù)變化與語音業(yè)務(wù)時長變化的樣本集

4.2 與OLAP方法的性能比較

為了對比本文所提出的方法與傳統(tǒng)OLAP方法的性能,選出1 000個無線小區(qū)樣本,對比兩種算法在相關(guān)挖掘方面的準(zhǔn)確性。其中,樣本小區(qū)均為城市中心的高負(fù)載小區(qū),且樣本小區(qū)均存在由于CPU負(fù)載過高引起掉話率高的現(xiàn)象。現(xiàn)將樣本小區(qū)分為10組,對比兩種算法判斷樣本小區(qū)掉話原因的準(zhǔn)確性,結(jié)果如圖6所示。

圖6 本文所提方法與OLAP方法的性能比較

從圖6可以看到,采用本文所提的數(shù)據(jù)分析方法可以有效地提高數(shù)據(jù)分析的準(zhǔn)確性。對于運營商而言,其業(yè)務(wù)質(zhì)量并不完全取決于網(wǎng)絡(luò)的性能參數(shù),但通過不斷地對網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行分析,采用本文所提出的算法可以在很大程度上及時發(fā)現(xiàn)網(wǎng)絡(luò)運行中可能存在的問題,這樣的準(zhǔn)確率已經(jīng)基本可以滿足運營商對網(wǎng)絡(luò)管理的要求,同時這也說明本文所提出的分析方法具有一定的適用價值。

5 結(jié)束語

綜合網(wǎng)管的應(yīng)用將成為運營商增強(qiáng)競爭力、提高網(wǎng)絡(luò)管理效率的重要手段。基于數(shù)據(jù)分析的綜合網(wǎng)管系統(tǒng)未來不僅能夠成為公司競爭力的來源,也將成為運營商的重要資產(chǎn)。本文從綜合網(wǎng)管的應(yīng)用需求出發(fā),提出了一種有效自適應(yīng)獲取數(shù)據(jù)中信息的有效方法。最后通過實際數(shù)據(jù)的驗證及比較分析,驗證了本文所提方法的有效性。本文研究成果對未來綜合網(wǎng)管的設(shè)計、數(shù)據(jù)的使用有著很大的借鑒意義。

1 Eryilmaz A,Srikant R.Fair resource allocation in wireless networks using queue-length-based scheduling and congestion control.IEEE/ACM Transactions on Networking,2007,15(6):1333~1344

2 Shlens J.A tutorial on principal component analysis.http://www.docin.com/p-422532195.html,2009

3 Inmon W H.數(shù)據(jù)倉庫.北京:機(jī)械工業(yè)出版社,2000

4 張維明.數(shù)據(jù)倉庫原理與應(yīng)用.北京:電子工業(yè)出版社,2002

猜你喜歡
分析方法
隱蔽失效適航要求符合性驗證分析
學(xué)習(xí)方法
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
中西醫(yī)結(jié)合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 亚洲一级毛片免费观看| 欧美国产在线一区| 性69交片免费看| 国产精品污污在线观看网站| 人人91人人澡人人妻人人爽 | 天天色天天操综合网| 女人18毛片一级毛片在线 | 中文精品久久久久国产网址| 999国内精品久久免费视频| AV在线麻免费观看网站| 久久免费视频6| 久青草网站| 国产香蕉在线| AV不卡在线永久免费观看| 人妻丝袜无码视频| 无码福利视频| 欧美日韩高清| 亚洲国产日韩在线观看| 2019国产在线| 国产精品久久久久婷婷五月| www欧美在线观看| 欧美成人午夜在线全部免费| 国产av剧情无码精品色午夜| 日韩A∨精品日韩精品无码| 亚洲色图欧美在线| 好紧好深好大乳无码中文字幕| 亚洲AV无码乱码在线观看代蜜桃 | 3D动漫精品啪啪一区二区下载| 国产无码精品在线播放 | 四虎永久在线视频| 欧洲高清无码在线| 亚洲精品大秀视频| 丁香综合在线| 国产成人a毛片在线| 亚洲一区二区三区麻豆| 亚洲人网站| 女人18毛片久久| 欧美一级在线看| 日本亚洲国产一区二区三区| 日韩黄色精品| 国产福利免费视频| 经典三级久久| 国产夜色视频| 在线高清亚洲精品二区| 久久精品亚洲热综合一区二区| 国产精品自在线拍国产电影| 看看一级毛片| 黄色网页在线观看| 天天色天天综合| jizz国产视频| 国产丝袜无码精品| 久久激情影院| av无码久久精品| 成人午夜久久| 熟妇丰满人妻av无码区| 玖玖免费视频在线观看| 国产一级在线播放| 成人国产一区二区三区| 秋霞午夜国产精品成人片| 国产电话自拍伊人| 狼友视频一区二区三区| 91精品免费久久久| 免费在线a视频| 波多野结衣一区二区三视频| 2022精品国偷自产免费观看| 性视频一区| 久久综合干| 91在线播放免费不卡无毒| 国产丝袜一区二区三区视频免下载| 欧美中出一区二区| 超薄丝袜足j国产在线视频| 亚洲精品成人7777在线观看| 亚洲性一区| 曰韩免费无码AV一区二区| 国产丝袜无码一区二区视频| 毛片免费试看| 亚洲黄网在线| 无码专区在线观看| 国产乱子精品一区二区在线观看| 国产精品亚欧美一区二区| 中日韩欧亚无码视频| 国产成人精品午夜视频'|