丁悠成
國(guó)網(wǎng)江蘇省電力有限公司常熟市供電分公司 江蘇 蘇州 215500
我國(guó)社會(huì)的飛速發(fā)展使得網(wǎng)絡(luò)信息技術(shù)以極快的速率應(yīng)用到各個(gè)行業(yè)中,同時(shí)其應(yīng)用也有效推動(dòng)了行業(yè)的發(fā)展。而數(shù)據(jù)挖掘技術(shù)則是網(wǎng)絡(luò)信息采集方式之一,這種技術(shù)代表著人們?cè)陂L(zhǎng)期網(wǎng)絡(luò)信息活動(dòng)及研究中總結(jié)的經(jīng)驗(yàn),具有從大量信息中篩選出最富價(jià)值信息的能力。在將數(shù)據(jù)挖掘應(yīng)用在網(wǎng)絡(luò)信息采集中之后,人力分析的工作量被大幅削減,這就使得不同行業(yè)的工作效率均獲得了很大程度的提升[1]。如今數(shù)據(jù)挖掘已經(jīng)發(fā)展為一門囊括內(nèi)容眾多的學(xué)科,同時(shí)也引起了整個(gè)社會(huì)的廣泛關(guān)注。
近年來網(wǎng)絡(luò)信息技術(shù)的普及與應(yīng)用,使得互聯(lián)網(wǎng)上的信息資源在數(shù)量及種類上展現(xiàn)出幾何速率的增長(zhǎng)。大部分情況下從互聯(lián)網(wǎng)上獲取的信息均是免費(fèi)的,然而海量的數(shù)據(jù)使得人們難以在短時(shí)間內(nèi)實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效篩選,因而判定數(shù)據(jù)價(jià)值的工作也面臨著一定的難度,而互聯(lián)網(wǎng)本身開放性、動(dòng)態(tài)性及異構(gòu)性的特點(diǎn)進(jìn)一步加劇了數(shù)據(jù)篩選的難度與準(zhǔn)確性;另一方面,各類數(shù)據(jù)在數(shù)量上的龐大程度也導(dǎo)致了數(shù)據(jù)在內(nèi)容上的復(fù)雜性,這就使得數(shù)據(jù)篩選工作的質(zhì)量很難得到保障,對(duì)于其中違法或違規(guī)內(nèi)容的鑒別也占用了大量的時(shí)間成本;最后,互聯(lián)網(wǎng)的交互性導(dǎo)致某些敏感部門不能從互聯(lián)網(wǎng)上直接獲取信息,這就使得這些部門的信息需求問題難以得到有效的解決。
神經(jīng)網(wǎng)絡(luò)法的應(yīng)用是人腦神經(jīng)元形式在網(wǎng)絡(luò)信息采集方法中的表現(xiàn),可簡(jiǎn)單理解為將數(shù)據(jù)挖掘過程與人腦神經(jīng)元相結(jié)合,從而構(gòu)建出三種不同類型的神經(jīng)網(wǎng)絡(luò)模型,并根據(jù)實(shí)際情況對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行培訓(xùn)及優(yōu)化,以使數(shù)據(jù)挖掘工作的效率獲得相應(yīng)提升。在神經(jīng)網(wǎng)絡(luò)法中包含了大量的神經(jīng)元,而這些神經(jīng)元?jiǎng)t能夠通過完全不同的連接形成動(dòng)態(tài)畫的系統(tǒng)。事實(shí)上,互聯(lián)網(wǎng)本身具有一定的學(xué)習(xí)能力,這就使得在模擬人類大腦結(jié)構(gòu)的同時(shí),可將接觸到的信息及獲取的知識(shí)存儲(chǔ)在不同的網(wǎng)絡(luò)單元中[2],而互聯(lián)網(wǎng)模擬人類大腦的優(yōu)勢(shì),在于其本身具有相應(yīng)的抗噪聲能力,這是人類大腦結(jié)構(gòu)所不具備的。
當(dāng)前數(shù)據(jù)挖掘工作中常見的神經(jīng)網(wǎng)絡(luò)法以前進(jìn)神經(jīng)分類較多,該方式有效模擬了人類大腦的思考模式,因而也就使得網(wǎng)絡(luò)決策更容易為人所理解,此外該方式還具有建立白化機(jī)制的功能,可根據(jù)數(shù)據(jù)挖掘、決策支持來提供相應(yīng)的說明講解。該方式具有很高的擬人化程度及人性化特征,但缺點(diǎn)是單個(gè)系統(tǒng)的構(gòu)成需要大量的資源支持,且在應(yīng)用的靈活性上有所匱乏。
粗集方法建立在粗集理論的基礎(chǔ)上,這意味著粗集方法并不需要借助給定的部分特征或?qū)傩裕强梢灾苯訌慕o定問題的角度進(jìn)行思考,依靠不可分辨關(guān)系來查明數(shù)據(jù)之間的具體規(guī)律。假如系統(tǒng)采集到的數(shù)據(jù)中存在其他不確定因素或變化因素,則這部分因素需要得到及時(shí)的解決,而網(wǎng)絡(luò)信息數(shù)據(jù)庫又不具備這樣的功能,這就使得粗集方法能夠派上用場(chǎng),粗集方法通過完整集合這部分因素及內(nèi)容,能夠有效強(qiáng)化信息的處理能力。此外,粗集方法還具有求解最小約簡(jiǎn)的功能,這就使得約簡(jiǎn)規(guī)則的總結(jié)及歸納成為可能[3]。一般情況下,最小約簡(jiǎn)是人們?cè)跀?shù)據(jù)挖掘過程中最期望見到的結(jié)果,而決策表約簡(jiǎn)則以大量不同內(nèi)容的部分構(gòu)成,粗集方法對(duì)最小約簡(jiǎn)的求得使得該方法在數(shù)據(jù)挖掘過程中備受相關(guān)人員的青睞。
決策樹歸納法是網(wǎng)絡(luò)信息采集過程中最常見的數(shù)據(jù)挖掘方式之一,而且決策樹歸納法在應(yīng)用難度上也是最低的。事實(shí)上,決策樹歸納法還有決策圖的稱呼,其分類形式具有明顯的樹狀特點(diǎn),因而在相關(guān)規(guī)律的總結(jié)上也具有更高的可靠性。這就使得數(shù)據(jù)挖掘能夠依靠決策樹歸納法獲得含有大量信息的字段,并根據(jù)字段之間的差異為決策樹發(fā)展新的分支。在一個(gè)完整的決策樹中,不同分支自己往往需要重復(fù)建立樹的結(jié)點(diǎn)與分支。就其結(jié)構(gòu)形式而言,決策樹的形成往往需要以將全部子集均形成數(shù)據(jù)為前提,并在此基礎(chǔ)上完善整個(gè)決策樹的結(jié)構(gòu)。
遺傳算法在本質(zhì)上屬于優(yōu)化技術(shù),而遺傳算法的出現(xiàn)則源自于進(jìn)化理論,在進(jìn)化理論與遺傳相結(jié)合之后才有遺傳算法的誕生。遺傳算法在具體的應(yīng)用過程中通常需要對(duì)求解的問題進(jìn)行編碼,隨后根據(jù)各方面信息及內(nèi)容,對(duì)個(gè)體的適應(yīng)度進(jìn)行詳細(xì)的計(jì)算。在得出計(jì)算結(jié)果之后,遺傳算法會(huì)對(duì)結(jié)果進(jìn)行復(fù)制、變換等操作,從而使之產(chǎn)生新的個(gè)體。通常遺傳算法會(huì)分為選擇過程、重組過程及突變過程三種基本算子,而三種基本算子執(zhí)行的算法也各不相同。而在數(shù)據(jù)挖掘過程中,遺傳算法還能實(shí)現(xiàn)對(duì)計(jì)算的優(yōu)化及分類,因而對(duì)于組合優(yōu)化問題的處理具有一定的優(yōu)勢(shì)。相比其他方法而言,遺傳算法最大的優(yōu)勢(shì)是其操作上的便利性及低難度。
網(wǎng)絡(luò)信息采集已經(jīng)成為當(dāng)前時(shí)代背景下的重要信息資源獲取方式之一,而數(shù)據(jù)挖掘的不同方法則使得網(wǎng)絡(luò)信息采集的效率得到極大程度地優(yōu)化。在不同數(shù)據(jù)挖掘方法的應(yīng)用下,用戶在進(jìn)行網(wǎng)絡(luò)信息采集時(shí)的效率能夠獲得極大程度的提升,也就使得網(wǎng)絡(luò)信息資源的利用率獲得大幅強(qiáng)化,對(duì)行業(yè)及社會(huì)的發(fā)展起到了一定的推動(dòng)作用。