盧建輝
(中國移動(dòng)通信集團(tuán)河北有限公司,石家莊 050011)
第一,需要處理較大數(shù)據(jù)信息量。首先在大數(shù)據(jù)處理階段中,最主要的就是要處理PB級(jí)甚至是EB級(jí)的數(shù)據(jù)量。第二,大數(shù)據(jù)信息中數(shù)據(jù)非結(jié)構(gòu)化的發(fā)展。隨著移動(dòng)通信網(wǎng)絡(luò)的不斷發(fā)展,促進(jìn)了大數(shù)據(jù)時(shí)代的來臨,使得大量的非結(jié)構(gòu)化數(shù)據(jù)在迅速的增加,其中需要處理的非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)占據(jù)了總數(shù)據(jù)量的80%。
大數(shù)據(jù)處理一般情況下需要經(jīng)過四個(gè)步驟,如圖1所示,以物聯(lián)網(wǎng)為例,講述四個(gè)關(guān)鍵技術(shù)。

圖1
許多終端在無人監(jiān)控或者在環(huán)境惡劣的情況下,大量收集數(shù)據(jù),這樣收集而來的原始數(shù)據(jù)可能出現(xiàn)錯(cuò)誤和誤差,不準(zhǔn)確和不完善,會(huì)導(dǎo)致數(shù)據(jù)的可靠性大大降低,因此就需要通過清洗技術(shù),去除部分錯(cuò)誤、冗余和不完整的數(shù)據(jù),最后將數(shù)據(jù)提取出來并儲(chǔ)存。許多算法可以對(duì)數(shù)據(jù)進(jìn)行清洗提取,但是大都是針對(duì)小量數(shù)據(jù),并不能處理巨量數(shù)據(jù),特別是 PB或者 EB級(jí)別以上的數(shù)據(jù)。因此,為了保證數(shù)據(jù)的正確性和完善性,確保分析結(jié)果的可靠性,算法等清洗技術(shù)需要不斷發(fā)展和優(yōu)化,這是近期需要迫切解決的關(guān)鍵技術(shù)問題。
因?yàn)樵紨?shù)據(jù)都是通過不同的終端收集而來,正是多源異構(gòu)這一本質(zhì)特征,所以,需要將來源不同的數(shù)據(jù)進(jìn)行清洗提取,最后進(jìn)行數(shù)據(jù)融合,將表示同一實(shí)體的不同數(shù)據(jù)表象融合至單一的數(shù)據(jù)表象,能夠解決數(shù)據(jù)間各種沖突矛盾的情況。在移動(dòng)通信網(wǎng)絡(luò)中,大數(shù)據(jù)的融合集成需要關(guān)注實(shí)體統(tǒng)一、數(shù)據(jù)關(guān)聯(lián)和數(shù)據(jù)沖突解決這三個(gè)關(guān)鍵問題。
獲得可利用的數(shù)據(jù)之后,就需要對(duì)收集到的數(shù)據(jù)進(jìn)行分析與挖掘,這是獲得數(shù)據(jù)價(jià)值的關(guān)鍵手段。同一批數(shù)據(jù),進(jìn)行不同方向的分析挖掘以及分析挖掘的能力不同等,都會(huì)造成對(duì)數(shù)據(jù)利用的成果不同,數(shù)據(jù)實(shí)現(xiàn)的價(jià)值也會(huì)不同。因此,高效的挖掘分析工具、工作人員和開發(fā)環(huán)境對(duì)數(shù)據(jù)的分析挖掘具有決定性的意義。
在獲得數(shù)據(jù)并進(jìn)行分析挖掘后,得到相應(yīng)的成果,最后則需要通過一定的方式將其展示出來,具現(xiàn)化數(shù)據(jù)的真正價(jià)值。現(xiàn)今發(fā)展比較迅速的是可視化分析,即利用各種數(shù)據(jù)分析展示的手段,將數(shù)據(jù)結(jié)果以一種直視覺的形式展現(xiàn)出來。可視化分析不僅能夠?qū)Υ髷?shù)據(jù)本身和其分析挖掘結(jié)果進(jìn)行展示,而且可以進(jìn)一步進(jìn)行人機(jī)交互等,增強(qiáng)數(shù)據(jù)處理分析的能力,實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。
目前,我國的移動(dòng)通信網(wǎng)絡(luò)后臺(tái)數(shù)據(jù)處理技術(shù),一般主要是指網(wǎng)絡(luò) KPI 分析與優(yōu)化,其在大數(shù)據(jù)分析技術(shù)基礎(chǔ)上,通過利用聚類分析對(duì)網(wǎng)絡(luò)后臺(tái)數(shù)據(jù)實(shí)現(xiàn)一種優(yōu)化工作,這樣對(duì)提高網(wǎng)絡(luò) KPI 有著非常重要的意義。我們以某個(gè)三線城市的移動(dòng)通信網(wǎng)絡(luò)優(yōu)化工作為例建立一個(gè)分析模型,并且根據(jù)現(xiàn)有網(wǎng)絡(luò) KPI的 考核情況為主要分析基礎(chǔ)。希望通過數(shù)據(jù)真實(shí)的反映出網(wǎng)絡(luò)的KPI 數(shù)據(jù)情況,詳細(xì)數(shù)據(jù)分類見表1。

表1 后臺(tái)數(shù)據(jù)分類
當(dāng)我們完成模型建立后,開始進(jìn)行數(shù)據(jù)處理的聚類分析后臺(tái)數(shù)據(jù)優(yōu)化。通過以 C 城市中某小區(qū) Y 為例,我們對(duì) Y 小區(qū)的移動(dòng)通信網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行提取、條件判斷、數(shù)據(jù)篩選和問題定位后,通過選擇其中 9 類 KPI 作為大數(shù)據(jù)處理的關(guān)鍵指標(biāo)進(jìn)行加權(quán)。建立其監(jiān)控體系之后,利用 Excel 宏工具作為我們數(shù)據(jù)處理的工具,然后通過Excel 中運(yùn)行 SQL 腳本,提取出 Y 小區(qū)的移動(dòng)網(wǎng)絡(luò)數(shù)據(jù),并且在宏程序中嵌入聚類分析的算法和優(yōu)化處理,將提取到的相關(guān)數(shù)據(jù)返回至 Excel 表格中,從而實(shí)現(xiàn)數(shù)據(jù)的優(yōu)化處理。這種方式不僅降低了網(wǎng)絡(luò)優(yōu)化工作人員的日常工作量,還能夠提高日常的工作效率。
首先,我們必須要把大數(shù)據(jù)處理技術(shù)應(yīng)用到網(wǎng)絡(luò)系統(tǒng)的準(zhǔn)確環(huán)節(jié)中,并且設(shè)定好具體的網(wǎng)絡(luò)系統(tǒng)優(yōu)化目標(biāo),然后再根據(jù)設(shè)定的優(yōu)化目標(biāo)選擇相應(yīng)的材料與工具。其次,在測(cè)試階段應(yīng)用大數(shù)據(jù)處理關(guān)鍵技術(shù),并且對(duì)于相關(guān)的數(shù)據(jù)處理信息進(jìn)行詳細(xì)的記錄,通過研究這些信息記錄來提高大數(shù)據(jù)的應(yīng)用效果。工作人員對(duì)于大量的數(shù)據(jù)信息進(jìn)行全面優(yōu)化過程中,對(duì)于涉及的信息切換以及信號(hào)覆蓋問題時(shí),要及時(shí)的進(jìn)行相關(guān)問題的解決,從而不斷的對(duì)優(yōu)化結(jié)構(gòu)進(jìn)行完善。
綜上所述,隨著我國科學(xué)技術(shù)的不斷發(fā)展,不斷帶動(dòng)移動(dòng)通信網(wǎng)絡(luò)技術(shù)的進(jìn)步,并且促進(jìn)了大數(shù)據(jù)處理時(shí)代的到來。大數(shù)據(jù)處理技術(shù)不僅能夠給人們?nèi)粘Ia(chǎn)生活帶來極大的方便,還能有效的進(jìn)行相關(guān)數(shù)據(jù)的分析。隨著科學(xué)技術(shù)的不斷發(fā)展,以及對(duì)大數(shù)據(jù)處理技術(shù)關(guān)鍵技術(shù)的不斷創(chuàng)新與研究,我相信今后對(duì)于大數(shù)據(jù)處理的速度與質(zhì)量也會(huì)不斷的提高。
[1] 莫元富.車聯(lián)網(wǎng)環(huán)境下交通信息分發(fā)與處理關(guān)鍵技術(shù)研究[D].吉林大學(xué),2016.