龍 妤
(廣東網(wǎng)聯(lián)天下科技有限公司,廣東 東莞 523000)
數(shù)據(jù)挖掘(Data Mining,DM)又經(jīng)常被稱作知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),其通過深入分析海量存在噪聲的不完整隨機(jī)數(shù)據(jù),在表面分析認(rèn)知的基礎(chǔ)上得到隱藏的有價(jià)值信息,并將這些隱藏的、容易被人們忽略的信息應(yīng)用到生產(chǎn)實(shí)踐的指導(dǎo)中,是一個(gè)完整過程和體系。數(shù)據(jù)挖掘技術(shù)和其他技術(shù)一樣也在不斷發(fā)展,在發(fā)展過程中將機(jī)器學(xué)習(xí)、人工智能、大數(shù)據(jù)、數(shù)理統(tǒng)計(jì)以及神經(jīng)網(wǎng)絡(luò)等新的理論和方法融入其中。目前,數(shù)據(jù)挖掘成為各國研究的熱點(diǎn),被引入到不同領(lǐng)域中并進(jìn)行延伸,在得到廣大學(xué)者關(guān)注的同時(shí)也得到通信行業(yè)關(guān)注[1-2]。
在大數(shù)據(jù)的背景下充分利用數(shù)據(jù)挖掘技術(shù),能夠更加快速便捷地發(fā)現(xiàn)實(shí)際問題,并及時(shí)采取針對(duì)性措施進(jìn)行解決。數(shù)據(jù)挖掘技術(shù)的作用和功能逐漸凸顯,具體體現(xiàn)在如下5個(gè)方面。
對(duì)于數(shù)據(jù)挖掘技術(shù),其實(shí)質(zhì)是提取和識(shí)別特征數(shù)據(jù)和指標(biāo)。而無論是對(duì)事物的認(rèn)知還是對(duì)事物的分析中,都需要對(duì)事物進(jìn)行必須觀察,了解其特征,在特征提取和分析基礎(chǔ)上了解數(shù)據(jù)和事物差異性。
數(shù)據(jù)挖掘的過程實(shí)際是數(shù)據(jù)的重新整理與分類以及特征提取分析的過程。通過整合分析數(shù)據(jù)能夠發(fā)現(xiàn)一些特征數(shù)據(jù),這些數(shù)據(jù)呈現(xiàn)出一定的規(guī)律性,對(duì)事物分析具有一定的價(jià)值和指導(dǎo)意義,能夠?yàn)閷?shí)際的企業(yè)發(fā)展和建設(shè)提供一定的理論指導(dǎo)和數(shù)據(jù)支持。
在數(shù)據(jù)挖掘過程中能夠提取和分析相關(guān)數(shù)據(jù)及其特征,有效區(qū)分?jǐn)?shù)據(jù)分類,對(duì)不同分類數(shù)據(jù)進(jìn)行分別分析,確定不同類型數(shù)據(jù)的發(fā)展規(guī)律,結(jié)合數(shù)據(jù)和客觀事實(shí)發(fā)現(xiàn)數(shù)據(jù)規(guī)律預(yù)測未來發(fā)展趨勢,對(duì)未知問題解決具有重要指導(dǎo)意義。
在進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析中,若出現(xiàn)未知信息建議考慮引入聚類分析,實(shí)現(xiàn)數(shù)據(jù)重新分類。以建筑工程為例,建筑工程種類呈現(xiàn)多元化、新型化特征,傳統(tǒng)建筑工程數(shù)據(jù)分析方法在新型建設(shè)出現(xiàn)的情況已經(jīng)不能完全適用,不能實(shí)現(xiàn)對(duì)新型建筑建設(shè)情況、具體分類的有效分析。采用基于聚類分析的數(shù)據(jù)挖掘技術(shù),能夠在傳統(tǒng)數(shù)據(jù)采集和分析的基礎(chǔ)上結(jié)合建筑工程位置和建筑工程類型進(jìn)行聚類分析,并在分析的基礎(chǔ)上進(jìn)一步明確工程類型的差異,為新建筑工程建設(shè)提供科學(xué)完善的資料。聚類分析技術(shù)在數(shù)據(jù)挖掘中的應(yīng)用越來越廣泛,尤其是在未知向已知的過渡階段具有良好應(yīng)用性。
離群點(diǎn)分析是當(dāng)前大數(shù)據(jù)技術(shù)應(yīng)用和發(fā)展的關(guān)鍵。離群點(diǎn)分析是利用數(shù)據(jù)分析和采集技術(shù)發(fā)現(xiàn)數(shù)據(jù)中的異常點(diǎn)和不合規(guī)點(diǎn),即通過離群點(diǎn)分析確定白噪聲和異常情況,基于分析基礎(chǔ)上確定故障部位、分析故障內(nèi)容。離群點(diǎn)分析在目前工程建設(shè)的特殊問題處理中具有極強(qiáng)優(yōu)越性。
K-means聚類算法屬于典型迭代型聚類算法,相對(duì)較簡單,其機(jī)理內(nèi)涵如下。數(shù)據(jù)庫中兩個(gè)距離較短的數(shù)據(jù)必有一定相似性,一般距離越近相似性越高,對(duì)數(shù)據(jù)庫中距離非常近或重合的數(shù)據(jù)作為數(shù)據(jù)簇。在挖掘技術(shù)應(yīng)用中,不僅包括單一數(shù)據(jù)挖掘,還應(yīng)該涵蓋對(duì)數(shù)據(jù)簇的挖掘與分析。目前,K-means聚類算法已經(jīng)在數(shù)據(jù)挖掘中廣泛應(yīng)用,具有極強(qiáng)的迭代特性和動(dòng)態(tài)特性。K-means聚類算法在數(shù)據(jù)挖掘應(yīng)用中,首先準(zhǔn)確定位數(shù)據(jù)庫并進(jìn)行分類,對(duì)其中異常值進(jìn)行必要調(diào)整、修改,分類基礎(chǔ)上進(jìn)行下一步迭代,直到準(zhǔn)則函數(shù)出現(xiàn)極強(qiáng)收斂信號(hào)。該算法基本應(yīng)用流程如圖1所示。

圖1 K-means聚類算法應(yīng)用流程圖
K-means聚類算法的具體流程:
(1)利用該算法在數(shù)據(jù)庫中采用隨機(jī)調(diào)取的方法選擇K個(gè)數(shù)據(jù),并將這K個(gè)數(shù)據(jù)作為數(shù)據(jù)挖掘的初始數(shù)據(jù)備用;
(2)分析選取的K個(gè)數(shù)據(jù),按照就近原則進(jìn)行數(shù)據(jù)分配,將其分配到相應(yīng)數(shù)據(jù)簇;
(3)進(jìn)一步分析數(shù)據(jù)簇并得到相應(yīng)的平均值,然后根據(jù)平均值分類數(shù)據(jù)隊(duì)形,將其分配到相近的數(shù)據(jù)簇;
(4)分類后重新評(píng)定數(shù)據(jù)簇的平均值;
(5)進(jìn)一步明確K-means聚類算法的準(zhǔn)則函數(shù),并通過計(jì)算確定最終的準(zhǔn)則函數(shù)E;
(6)分析準(zhǔn)則函數(shù),該值收斂時(shí),則可以輸出該值。
K-means聚類算法在數(shù)據(jù)分析中最終經(jīng)準(zhǔn)則函數(shù)判定,能得到最優(yōu)解,即全局最小值,其是數(shù)據(jù)平方差變化最小軌跡。該算法中還引入了迭代更新算法,并通過該算法實(shí)現(xiàn)對(duì)數(shù)據(jù)的循環(huán)分析與挖掘。K-means聚類算法和迭代更新算法的綜合運(yùn)用保證了最終參照點(diǎn)切近數(shù)據(jù)簇中心。這要求K-means聚類分析中結(jié)合迭代算法,簡化目標(biāo)函數(shù),保證最終得到精細(xì)化的準(zhǔn)確數(shù)據(jù)。
層次聚類算法作為數(shù)據(jù)挖掘技術(shù)中的另一重要算法,通過層層分解實(shí)現(xiàn)了數(shù)據(jù)的挖掘,最終找到最佳數(shù)據(jù)。為構(gòu)建出最佳層次聚類算法模型需要構(gòu)建一個(gè)聚類數(shù),基于從下到上的原則層層分解數(shù)據(jù)。目前,依據(jù)分層進(jìn)行分類的方法可以分為分裂分類法和凝聚分類法兩種。AGNES算法作為層次聚類算法中凝聚分類法的典型代表,目前在數(shù)據(jù)挖掘中的應(yīng)用十分廣泛。DIANA算法作為分裂分類算法的代表,在數(shù)據(jù)挖掘中的應(yīng)用也較為廣泛。和分裂分類算法相比,凝聚分類算法的應(yīng)用范圍更廣[3]。在凝聚分類算法的應(yīng)用中需要綜合考慮不同數(shù)據(jù)簇之間的鄰近度和相似度問題,可采用鄰近度矩陣進(jìn)行數(shù)據(jù)處理和分析。
凝聚分類算法在數(shù)據(jù)挖掘技術(shù)中應(yīng)用時(shí),主要涉及到如下3個(gè)步驟。
(1)通過數(shù)據(jù)分析對(duì)數(shù)據(jù)進(jìn)行初步分類,保證初始數(shù)據(jù)簇的形成。
(2)在就近原則的基礎(chǔ)上分析相應(yīng)數(shù)據(jù),實(shí)現(xiàn)不同數(shù)據(jù)簇之間的數(shù)據(jù)合并。
(3)數(shù)據(jù)簇合并后能夠形成新的數(shù)據(jù)簇,進(jìn)行新數(shù)據(jù)簇的數(shù)據(jù)挖掘。通過循環(huán)迭代,最終能夠滿足數(shù)據(jù)挖掘的實(shí)際需求。
基于大數(shù)據(jù)背景的數(shù)據(jù)挖掘技術(shù)算法應(yīng)用流程如圖2所示。

圖2 基于大數(shù)據(jù)背景的數(shù)據(jù)挖掘技術(shù)算法應(yīng)用流程
先明確實(shí)際需求,在確定目標(biāo)后分析實(shí)際市場,并在結(jié)合市場分析和消費(fèi)者分析的基礎(chǔ)上定位科學(xué)業(yè)務(wù)。同時(shí),確定通信公司的現(xiàn)有資源,整合分析現(xiàn)有資源和客戶需求,確定科學(xué)、能有效執(zhí)行的目標(biāo)。不同客戶在通信質(zhì)量、資費(fèi)等通信服務(wù)方面具有不同要求,因此需要對(duì)客戶需求進(jìn)行挖掘,以確定不同客戶的實(shí)際需求,即明確問題[4]。
為保障最終結(jié)果的準(zhǔn)確性和有效性就需要強(qiáng)有力的工具支持,即需要選擇科學(xué)合理的數(shù)據(jù)挖掘方法。明確問題和任務(wù)目標(biāo)基礎(chǔ)上,統(tǒng)籌協(xié)調(diào)數(shù)據(jù)描述、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)估值、數(shù)據(jù)分類等過程,確定變量,引入數(shù)據(jù)挖掘算法結(jié)合變量將問題轉(zhuǎn)化,構(gòu)建滿足要求的數(shù)據(jù)挖掘模型。在實(shí)際數(shù)據(jù)挖掘工具確定中必須要結(jié)合實(shí)際情況確定合適的數(shù)據(jù)挖掘算法和工具,常用的包括聚類算法、迭代更新及相關(guān)性分組等。
為保障數(shù)據(jù)挖掘進(jìn)程的進(jìn)行,必須做好數(shù)據(jù)準(zhǔn)備工作。為模型構(gòu)建整合數(shù)據(jù)源,廣泛收集數(shù)據(jù)的同時(shí),核實(shí)數(shù)據(jù)的準(zhǔn)確性和有效性。這要求相關(guān)工作人員在進(jìn)行數(shù)據(jù)工作中,必須嚴(yán)于律己做好這一工作。
做好數(shù)據(jù)整理和算法準(zhǔn)備工作之后,根據(jù)實(shí)際情況和具體問題匹配數(shù)據(jù)挖掘技術(shù),確定基礎(chǔ)模型框架。然后,對(duì)模型技術(shù)框架進(jìn)行一定的調(diào)整和優(yōu)化,保證最終確定的模型具有實(shí)用性。同時(shí),在進(jìn)行模型建立的過程中應(yīng)該尤為注重過程及模型類型,確保數(shù)據(jù)挖掘的優(yōu)勢真正凸顯。
利用建立好的模型進(jìn)行數(shù)據(jù)挖掘,最終能夠得到問題及解決問題的相關(guān)結(jié)果及規(guī)律,對(duì)于最終的結(jié)果需要進(jìn)行評(píng)估,包括有效性和價(jià)值性,通過結(jié)果的評(píng)價(jià)明確模型是否科學(xué)適用。保證模型和結(jié)果的科學(xué)性之后,利用結(jié)果去解決實(shí)際問題。以通信用戶服務(wù)為例,通過數(shù)據(jù)挖掘技術(shù)明確了通信用戶的實(shí)際需求之后,能夠根據(jù)這一結(jié)果給用戶提供針對(duì)性服務(wù),能夠提高客戶的滿意度,對(duì)留住客戶、加強(qiáng)客戶關(guān)系管理、提升服務(wù)水平具有重要意義[5]。
大量數(shù)據(jù)的有效分析需求催生了數(shù)據(jù)挖掘技術(shù),該技術(shù)在隱藏?cái)?shù)據(jù)挖掘、數(shù)據(jù)深入分析等方面具有良好應(yīng)用性,其很好地融合了計(jì)算機(jī)軟件技術(shù)、人工智能技術(shù)以及數(shù)據(jù)處理技術(shù)。可以預(yù)見,在未來大數(shù)據(jù)背景下的數(shù)據(jù)挖掘技術(shù)發(fā)展中必將更加深入。