楊 旭,郭紹翠
YANG Xu1, GUO Shao-cui2
(1. 煙臺(tái)職業(yè)學(xué)院 信息工程系,煙臺(tái) 264670;2. 煙臺(tái)職業(yè)學(xué)院 開(kāi)放教育學(xué)院,煙臺(tái) 264670)
信息可視化(Information Visualization)是當(dāng)前計(jì)算機(jī)科學(xué)的一個(gè)重要研究方向,它是利用計(jì)算機(jī)對(duì)抽象信息進(jìn)行直觀地表示,以利于快速檢索信息和增強(qiáng)認(rèn)知能力。信息可視化最早出現(xiàn)在1989年美國(guó)計(jì)算機(jī)學(xué)會(huì)組織的重要國(guó)際會(huì)議“用戶(hù)界面軟件與技術(shù)(UIST)”[1]的報(bào)告中,重點(diǎn)研究如何把抽象信息交互地、可視地表示出來(lái)。信息可視化的定義為:對(duì)抽象信息使用計(jì)算機(jī)支持的、交互的、可視化的表示形式以增強(qiáng)認(rèn)知能力。信息可視化技術(shù)將為人們發(fā)現(xiàn)規(guī)律、增強(qiáng)認(rèn)知、輔助決策、解釋現(xiàn)象提供強(qiáng)有力的工具。
20世紀(jì)80年代以來(lái),隨著計(jì)算機(jī)技術(shù)、存儲(chǔ)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,人們可以掌握的信息類(lèi)型越來(lái)越多,信息結(jié)構(gòu)越來(lái)越復(fù)雜、信息更新越來(lái)越快,信息規(guī)模也越來(lái)越大,給人們獲取信息、理解信息、掌握信息帶來(lái)沉重負(fù)擔(dān)。因此,對(duì)于當(dāng)前的可視化技術(shù),海量多維信息與有限的屏幕空間已成為主要矛盾。
為了解決這一問(wèn)題,當(dāng)前的可視化技術(shù)如平行坐標(biāo)系(parallel coordinates)[2]等主要采用聚類(lèi)的方法,通過(guò)預(yù)先對(duì)數(shù)據(jù)進(jìn)行重新組織,以減少需要繪制的圖形標(biāo)記。常用的聚類(lèi)算法一般都是基于歐氏距離的,以k-means算法及其變形為主,通過(guò)計(jì)算數(shù)據(jù)之間的“距離” ,將相近或者相似的數(shù)據(jù)歸為一類(lèi),并以統(tǒng)一的圖形表示。這種算法對(duì)處理數(shù)據(jù)量不大的簡(jiǎn)單數(shù)據(jù)時(shí)較為有效,在應(yīng)對(duì)復(fù)雜的海量信息時(shí)就顯得有些差強(qiáng)人意。
為了加快可視化的聚類(lèi)過(guò)程,本文將擴(kuò)展BP網(wǎng)絡(luò)用于復(fù)雜信息的聚類(lèi)中,代替?zhèn)鹘y(tǒng)的基于歐氏距離的聚類(lèi)算法。該方法利用多維信息和其聚類(lèi)結(jié)果構(gòu)造相應(yīng)的BP網(wǎng)絡(luò)模型,用已知聚類(lèi)結(jié)果的多維信息作為樣本對(duì)算法進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該方法簡(jiǎn)單高效,可以較為準(zhǔn)確和快速的對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。
擴(kuò)展隱層的BP網(wǎng)絡(luò)模型及其訓(xùn)練算法[3]是對(duì)傳統(tǒng)三層BP網(wǎng)絡(luò)模型的改進(jìn)與擴(kuò)展,其目的是在不改變神經(jīng)網(wǎng)絡(luò)表達(dá)能力的基礎(chǔ)上,提高網(wǎng)絡(luò)的訓(xùn)練精度與預(yù)測(cè)能力,同時(shí)增加網(wǎng)絡(luò)的靈活性,對(duì)外提供一個(gè)接口,方便與其它訓(xùn)練算法相結(jié)合,發(fā)揮多種算法的優(yōu)勢(shì)。
Funahashi于1989年證明了這樣的一個(gè)定理:若輸入層和輸出層采用線性激活函數(shù),隱層采用Sigmoid激活函數(shù),則三層結(jié)構(gòu)的BP網(wǎng)絡(luò)能夠以任意精度逼近任何有理函數(shù)。因此,在實(shí)際的應(yīng)用中,一般采用三層結(jié)構(gòu)的BP網(wǎng)絡(luò),其輸入層和輸出層采用線性激活函數(shù),隱層采用S(Sigmoid)型激活函數(shù)。
擴(kuò)展BP網(wǎng)絡(luò)模型是對(duì)原傳統(tǒng)三層網(wǎng)絡(luò)結(jié)構(gòu)一種擴(kuò)展,其構(gòu)造方法是在三層BP網(wǎng)絡(luò)的基礎(chǔ)上擴(kuò)展一個(gè)新的隱層,稱(chēng)其為輔助隱層。該隱層在原隱層之后添加,隱節(jié)點(diǎn)數(shù)與原隱層節(jié)點(diǎn)數(shù)相同,相當(dāng)于對(duì)原隱層的一種復(fù)制。輔助隱層的激活函數(shù)采用線性函數(shù),出于訓(xùn)練效率的考慮忽略輔助隱層的閾值。擴(kuò)展后的BP網(wǎng)絡(luò)的模型如圖1所示。

圖1 擴(kuò)展隱層的BP網(wǎng)絡(luò)模型
擴(kuò)展隱層的BP網(wǎng)絡(luò)訓(xùn)練算法如下:
1)對(duì)原始三層結(jié)構(gòu)的BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練,確定權(quán)值,閾值等網(wǎng)絡(luò)參數(shù)。
2)動(dòng)態(tài)擴(kuò)展一個(gè)隱層,構(gòu)造擴(kuò)展隱層的BP網(wǎng)絡(luò)。利用蟻群算法對(duì)新增權(quán)值進(jìn)行訓(xùn)練,并確定其最終取值[4,5]。
設(shè)新增加了m個(gè)權(quán)值Pi,(1≤i≤m),Pi有N個(gè)隨機(jī)值,形成集合Ipi,h為螞蟻數(shù)目,Djk(Ipi)表示集合Ipi(1≤i≤m)中第j個(gè)元素Pj(Ipi)的信息量,Q(k)表示信息增量。則新增權(quán)值的具體訓(xùn)練步驟如下:
1)初始化,令t和循環(huán)次數(shù)初始值Nc為零。設(shè)置最大循環(huán)次數(shù)Ncmax,令每個(gè)集合中每個(gè)元素的信息量Dj(Ipi)=C,且ΔDj(Ipi)=0,將全部螞蟻置于蟻巢。
2)啟動(dòng)所有螞蟻,針對(duì)Ipi,螞蟻k(k=1,2…h(huán))根據(jù)下式計(jì)算狀態(tài)轉(zhuǎn)移概率:

3)重復(fù)(2),直到蟻群全部到達(dá)食物源。
4)令t=t+m,Nc=Nc+1,利用螞蟻選擇的權(quán)值計(jì)算神經(jīng)網(wǎng)絡(luò)的輸出值和差值,記錄當(dāng)前最優(yōu)解。根據(jù)以下公式更新各元素的信息量:

5)如果螞蟻收斂到一條路徑或Nc≥Ncmax,則算法結(jié)束,否則轉(zhuǎn)2)。
上述公式中,Q(k)表示信息強(qiáng)度是隨時(shí)間變化的,Q(k)=α*Q(k-1), 0<α<1在開(kāi)始應(yīng)設(shè)置較小值,然后逐漸增大,這樣可以保證蟻群算法在開(kāi)始時(shí)有更多機(jī)會(huì)搜索其它路徑,防止早熟;逐步增加Q值,拉開(kāi)各元素間的信息量差異,加快搜索速度,同時(shí)設(shè)置最大值Qmax,防止Q的取值無(wú)限增大。揮發(fā)系數(shù)ρ(t)也是一個(gè)可變量,ρ(t)=β*ρ(t-1), 1<β,開(kāi)始將其設(shè)置一個(gè)較小值,隨著訓(xùn)練頻數(shù)的增加,ρ(t)值也相應(yīng)變大,進(jìn)一步拉開(kāi)各元素之間的差異,加快訓(xùn)練速度,與Q值一樣,也應(yīng)為其設(shè)置一個(gè)上限值[6,7]。這兩個(gè)變量一個(gè)體現(xiàn)原始信息的重要性,一個(gè)體現(xiàn)螞蟻積累信息的重要性。
擴(kuò)展BP網(wǎng)絡(luò)需要與實(shí)際的應(yīng)用相結(jié)合,根據(jù)具體情況構(gòu)造相應(yīng)的網(wǎng)絡(luò)模型。按照上一章節(jié)中的算法,首先根據(jù)聚類(lèi)特征構(gòu)造擴(kuò)展BP網(wǎng)絡(luò)模型,然后選取部分具有代表性的海量信息生成樣本,用訓(xùn)練樣本對(duì)該模型進(jìn)行訓(xùn)練,使之具備聚類(lèi)能力,最后用該模型對(duì)海量信息進(jìn)行聚類(lèi)?;贐P網(wǎng)絡(luò)的聚類(lèi)與傳統(tǒng)的基于歐氏距離的聚類(lèi)算法相比,具有明顯的區(qū)別和優(yōu)勢(shì)。傳統(tǒng)算法是一種反復(fù)迭代的過(guò)程,它根據(jù)數(shù)據(jù)之間的“距離”,將相似或者相近的數(shù)據(jù)歸為一類(lèi),這種算法對(duì)于簡(jiǎn)單小型數(shù)據(jù)集比較有效。然而,可視化技術(shù)為了提示信息背后隱藏的關(guān)系、規(guī)律和模式,要處理的往往是那些復(fù)雜的大型數(shù)據(jù)集。傳統(tǒng)的在對(duì)這些數(shù)據(jù)反復(fù)迭代過(guò)程中,會(huì)消耗大量的時(shí)間,影響可視化技術(shù)的效率。而本文的方法,是對(duì)海量信息中的少量具有代表性的信息進(jìn)行學(xué)習(xí),具備分類(lèi)能力后再對(duì)剩余信息分類(lèi),避免了復(fù)雜的迭代過(guò)程,節(jié)省了大量的時(shí)間。數(shù)據(jù)集越大,其高效性越明顯。
可視化的聚類(lèi)過(guò)程中,一般都是用戶(hù)先確定聚類(lèi)粒度,然后根據(jù)需要確定最終的數(shù)據(jù)集要被分成多少類(lèi)。影響最終結(jié)果的因素就是多維信息本身,假設(shè)數(shù)據(jù)集包含N維信息,則這N維信息都是影響分類(lèi)結(jié)果的主要因素。即N維信息為BP網(wǎng)絡(luò)的輸入,單條信息所屬類(lèi)別為最終的輸出。由此可以構(gòu)造相應(yīng)的BP網(wǎng)絡(luò)模型,見(jiàn)圖2所示。

圖2 用于可視聚類(lèi)的BP模型
訓(xùn)練樣本是影響B(tài)P網(wǎng)絡(luò)分類(lèi)能力的重要因素,選取的合理性直接影響了BP網(wǎng)絡(luò)最終的預(yù)測(cè)能力。訓(xùn)練樣本是數(shù)據(jù)集的一部分,必須具有高度的概括性,能夠代表所有數(shù)據(jù)的特征。因此,合理選取訓(xùn)練樣本是一件比較困難的事情,訓(xùn)練樣本選取過(guò)多,不會(huì)影響網(wǎng)絡(luò)的分類(lèi)能力,但是影響訓(xùn)練效率;樣本選取過(guò)少,則會(huì)使網(wǎng)絡(luò)無(wú)法學(xué)習(xí)數(shù)據(jù)集的所有特征,影響最終的分類(lèi)能力。
本文采取隨機(jī)選取的方法確定訓(xùn)練樣本,即在數(shù)據(jù)集中隨機(jī)選擇全部數(shù)據(jù)的1/7~1/5作為訓(xùn)練樣本。這部分?jǐn)?shù)據(jù)的分類(lèi)情況事先是不知道的,需要加以確定。為了方便實(shí)驗(yàn),我們采用傳統(tǒng)的k-means方法對(duì)其分類(lèi)。當(dāng)然,聚類(lèi)算法并不局限于k-means,可以用其它適合于可視化技術(shù)的聚類(lèi)方法代替。
k-means 算法的主要思想如下:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類(lèi)中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類(lèi)中心的相似度(距離),分別將它們分配給與其最相似的(聚類(lèi)中心所代表的)聚類(lèi);然后再計(jì)算每個(gè)所獲新聚類(lèi)的聚類(lèi)中心(該聚類(lèi)中所有對(duì)象的均值);不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。 k個(gè)聚類(lèi)具有以下特點(diǎn):各聚類(lèi)本身盡可能的緊湊,而各聚類(lèi)之間盡可能的分開(kāi)。使用k-means算法對(duì)隨機(jī)選取的數(shù)據(jù)進(jìn)行分類(lèi),我們最終可以得到用于訓(xùn)練擴(kuò)展BP網(wǎng)絡(luò)的樣本。另外,需要保存當(dāng)前的分類(lèi)結(jié)果,這些分類(lèi)信息是后續(xù)工作的基礎(chǔ)。
本文采用擴(kuò)展BP網(wǎng)絡(luò)模型對(duì)可視化數(shù)據(jù)進(jìn)行聚類(lèi)。按照前面的介紹,其訓(xùn)練過(guò)程大體分為兩個(gè)步驟,即初次訓(xùn)練和再次訓(xùn)練,其本質(zhì)是兩種訓(xùn)練算法的交叉使用,發(fā)揮每種算法的優(yōu)勢(shì)。
第一步是用傳統(tǒng)的訓(xùn)練算法對(duì)三層結(jié)構(gòu)的BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練[8,9]。設(shè)定訓(xùn)練步數(shù),目標(biāo)精度,訓(xùn)練函數(shù)(trainrp),激活函數(shù)等訓(xùn)練參數(shù),對(duì)BP網(wǎng)絡(luò)進(jìn)行初次訓(xùn)練。第二步是在三層結(jié)構(gòu)的基礎(chǔ)上,擴(kuò)展一個(gè)新的隱層,并使用線性激活函數(shù),用蟻群算法對(duì)新增權(quán)值進(jìn)行訓(xùn)練,確定具體值。這一過(guò)程需要事先設(shè)定最大循環(huán)數(shù),螞蟻數(shù),初始信息量,信息增量,權(quán)值范圍,揮發(fā)系統(tǒng)等參數(shù),然后按照2.2章節(jié)中的算法對(duì)擴(kuò)展BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練。經(jīng)過(guò)兩種算法的交叉訓(xùn)練后,擴(kuò)展BP網(wǎng)絡(luò)已經(jīng)較好的學(xué)習(xí)了多維數(shù)據(jù)集中的潛在關(guān)系和規(guī)律,具備了對(duì)整個(gè)數(shù)據(jù)集分類(lèi)的能力。
擴(kuò)展BP網(wǎng)絡(luò)的訓(xùn)練過(guò)程看似復(fù)雜,涉及兩種算法,兩次訓(xùn)練,訓(xùn)練過(guò)程也要多次迭代。但與傳統(tǒng)的k-means等聚類(lèi)算法相比,還是具有一定的優(yōu)勢(shì):
1)傳統(tǒng)的算法思想簡(jiǎn)單,但計(jì)算復(fù)雜,需要對(duì)數(shù)據(jù)集的所有數(shù)據(jù)進(jìn)行迭代操作,當(dāng)數(shù)據(jù)復(fù)雜,維數(shù)多,數(shù)據(jù)量較大時(shí),聚類(lèi)時(shí)間明顯變長(zhǎng),效率嚴(yán)重下降。而基于擴(kuò)展BP網(wǎng)絡(luò)的聚類(lèi)算法則僅對(duì)數(shù)據(jù)集的部分樣本進(jìn)行訓(xùn)練,雖然也有迭代過(guò)程,但由于訓(xùn)練樣本數(shù)據(jù)量小,網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單,整體的訓(xùn)練時(shí)間并不長(zhǎng),效率較高。
2)傳統(tǒng)算法的優(yōu)勢(shì)在于小型數(shù)據(jù)集,在處理規(guī)模較小的信息時(shí),優(yōu)勢(shì)明顯。而本文的聚類(lèi)算法則適用于大型的數(shù)據(jù)集,通過(guò)對(duì)部分樣本進(jìn)行學(xué)習(xí)就可以具備分類(lèi)能力,可以直接計(jì)算后續(xù)樣本的所屬分類(lèi),避免了繁瑣的迭代過(guò)程。
當(dāng)然,本文算法也有自身的不足之處,就是訓(xùn)練樣本不好選取。K-means直接對(duì)全部數(shù)據(jù)分類(lèi),錯(cuò)分問(wèn)題不嚴(yán)重。而基于BP網(wǎng)絡(luò)的聚類(lèi)算法如果訓(xùn)練樣本選取不當(dāng),則無(wú)法學(xué)習(xí)數(shù)據(jù)集的全部特征,無(wú)法正確分類(lèi),容易產(chǎn)生錯(cuò)分現(xiàn)象。
擴(kuò)展BP網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練后會(huì)具備分類(lèi)能力,可以直接用于可視化數(shù)據(jù)集的分類(lèi)。隨著信息技術(shù)的發(fā)展,人們收集信息的能力越來(lái)越強(qiáng),手中掌握的信息量也越來(lái)越大,迫切需要有效的信息處理方法。本文使用的擴(kuò)展BP網(wǎng)絡(luò)可以有效的解決這一問(wèn)題,快速對(duì)海量復(fù)雜數(shù)據(jù)集進(jìn)行分類(lèi)。
但是,在分類(lèi)過(guò)程中,由于BP網(wǎng)絡(luò)本身具有一些有確定因素,預(yù)測(cè)結(jié)果有可能產(chǎn)生一些異常值,比如,分類(lèi)結(jié)果不在給定范圍之內(nèi)。雖然這種情況較少,但也會(huì)給實(shí)際的分類(lèi)帶來(lái)不利影響。有兩種方法可以解決這一問(wèn)題,一種是改進(jìn)BP網(wǎng)絡(luò)本身,使其具有一定的糾錯(cuò)能力,當(dāng)輸出異常時(shí)及時(shí)糾正。另外一種是利用傳統(tǒng)聚類(lèi)方法對(duì)這些異常信息直接分類(lèi)。
本文采用了第二種方法,因?yàn)檫@種方法相對(duì)于第一種算法更為準(zhǔn)確,只是會(huì)犧牲少許時(shí)間。此種方法的工作原理是:在用k-means算法對(duì)數(shù)據(jù)集的部分?jǐn)?shù)據(jù)分類(lèi),產(chǎn)生訓(xùn)練樣本的時(shí)候,我們已經(jīng)保存相應(yīng)的分類(lèi)信息。可以以此為基礎(chǔ),利用k-means算法直接對(duì)少量異常信息重新分類(lèi),由此去除異常現(xiàn)象。
本文設(shè)計(jì)了一組實(shí)驗(yàn),檢驗(yàn)擴(kuò)展BP網(wǎng)絡(luò)在可視化數(shù)據(jù)分類(lèi)中的可行性。很多學(xué)者在研究可視化技術(shù)時(shí),為了方便實(shí)驗(yàn),專(zhuān)門(mén)整理了一組數(shù)據(jù)作為公用測(cè)試集。本文選取了其中一組數(shù)據(jù)集UVW,用該數(shù)據(jù)集檢驗(yàn)本文算法的正確性,該數(shù)據(jù)集共有6維信息,149769條數(shù)據(jù),這6維信息分別是X,Y,Z,U,V,W。鑒于篇幅所限,僅列舉部分示例數(shù)據(jù),見(jiàn)表1。為了方便與傳統(tǒng)算法對(duì)比,本文同時(shí)使用k-means算法與擴(kuò)展BP網(wǎng)絡(luò)兩種方法對(duì)該數(shù)據(jù)集分類(lèi),并用數(shù)據(jù)對(duì)比了實(shí)驗(yàn)結(jié)果。
首先,用k-means算法對(duì)這149769條數(shù)據(jù)直接分類(lèi),保存分類(lèi)結(jié)果,記錄消耗時(shí)間,以方便對(duì)比。在此過(guò)程中產(chǎn)生的聚類(lèi)結(jié)果可以作為后續(xù)BP網(wǎng)絡(luò)的檢驗(yàn)樣本。

表1 多維信息訓(xùn)練樣本(部分)
接下來(lái),根據(jù)UVW數(shù)據(jù)集的特點(diǎn),構(gòu)造相應(yīng)的擴(kuò)展BP網(wǎng)絡(luò)模型。該數(shù)據(jù)集共有6維,其相應(yīng)的網(wǎng)絡(luò)模型如圖,有6個(gè)輸入節(jié)點(diǎn),分別對(duì)應(yīng)每維數(shù)據(jù),隱層節(jié)點(diǎn)根據(jù)經(jīng)驗(yàn)設(shè)置為5,輸出節(jié)點(diǎn)為1,代表最終分類(lèi)結(jié)果。選取數(shù)據(jù)集中20000條數(shù)據(jù),使用k-means算法對(duì)這些數(shù)據(jù)分類(lèi)生成訓(xùn)練樣本。用傳統(tǒng)的訓(xùn)練算法對(duì)三層BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置如下:本次實(shí)驗(yàn)的硬件環(huán)境為:CPU:P42.0,內(nèi)存:1G,軟件環(huán)境為Matlab 6.5。Matlab的參數(shù)設(shè)置為:隱層傳遞函數(shù)采用tansig ,輸出層傳遞函數(shù)采用purelin ,訓(xùn)練函數(shù)采用trainrp,訓(xùn)練步數(shù)為1000,目標(biāo)精度為0.001。訓(xùn)練完成后訓(xùn)練精度達(dá)到0.00074420。
在此基礎(chǔ)上,擴(kuò)展一個(gè)隱層,用蟻群算法對(duì)該BP網(wǎng)絡(luò)進(jìn)行二次訓(xùn)練,確定新增權(quán)值,提高訓(xùn)練精度。蟻群算法的參數(shù)設(shè)置如下:Q(0)=40,Qmax=80,N=20, ρ(0)=0.15,h=50,ρma x=0.50,Pi∈[-0.5,0.5], Ncmax=100,Dj(Ipi)=40,1≤i≤u, 1≤j≤20。以上參數(shù),Q,Qmax,N,h,Ncmax,Dj(Ipi)是根據(jù)問(wèn)題規(guī)模隨機(jī)選取的,選取依據(jù)是訓(xùn)練時(shí)間不能過(guò)長(zhǎng);在蟻群算法中,參數(shù)ρmax一般建議取0.5。BP網(wǎng)絡(luò)經(jīng)過(guò)初次訓(xùn)練,與最優(yōu)解的差距已經(jīng)縮小,過(guò)渡矩陣與單位陣較為接近,因此, 的取值范圍可以限定在一個(gè)較小的范圍內(nèi),本文取Pi∈[-0.5,0.5];利用上述參數(shù)對(duì)擴(kuò)展BP網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束后,對(duì)數(shù)據(jù)集中的所有檢驗(yàn)樣本進(jìn)行分類(lèi),并保存分類(lèi)結(jié)果,統(tǒng)計(jì)時(shí)間。最后,對(duì)于產(chǎn)生的那些異常數(shù)據(jù),即分類(lèi)結(jié)果超出給定范圍的數(shù)據(jù),本文使用傳統(tǒng)算法重新定位其所屬類(lèi)別,消除異常。
兩種聚類(lèi)方法的最終結(jié)果如表2所示,本文從實(shí)驗(yàn)數(shù)據(jù)數(shù)量,消耗時(shí)間,出現(xiàn)異常(分類(lèi)結(jié)果超出給定范圍),錯(cuò)分?jǐn)?shù)據(jù)(分類(lèi)不正確),和錯(cuò)分率幾個(gè)方面作了對(duì)比。從實(shí)驗(yàn)結(jié)果中可知,基于擴(kuò)展隱層BP網(wǎng)絡(luò)的聚類(lèi)算法相對(duì)于傳統(tǒng)算法具有省時(shí)高效的特點(diǎn),特別適用于大規(guī)模數(shù)據(jù)集,數(shù)據(jù)集越大,效果越明顯。但由于BP網(wǎng)絡(luò)本身具有一些不確定因素,導(dǎo)致該方法存在異常數(shù)據(jù)和錯(cuò)分現(xiàn)象,但相對(duì)于龐大的數(shù)據(jù)量,錯(cuò)分率還是相對(duì)較低的。由于可視化技術(shù)本身目的是為了揭示規(guī)律,觀察整體趨勢(shì),并不關(guān)心單條數(shù)據(jù),因此,本文提出的基于擴(kuò)展BP網(wǎng)絡(luò)的可視化聚類(lèi)算法是高效的,可行的。

表2 實(shí)驗(yàn)對(duì)比結(jié)果
實(shí)驗(yàn)證明,本文介紹的基于擴(kuò)展BP網(wǎng)絡(luò)的可視化信息聚類(lèi)方法是完全可行的。這種方法適合于大型的可視化數(shù)據(jù)多維數(shù)據(jù)集。相對(duì)于傳統(tǒng)的聚類(lèi)文獻(xiàn),它的效率更高,尤其是對(duì)海量信息的聚類(lèi),通過(guò)對(duì)少量數(shù)據(jù)的學(xué)習(xí),就具備了分類(lèi)能力,節(jié)省了大量時(shí)間。同時(shí),本文也考慮到了異常的存在,用傳統(tǒng)k-means算法消除了該現(xiàn)象。本文算法也存在需要改進(jìn)的地方,如樣本選取問(wèn)題,本文采用了隨機(jī)選取的辦法,但該方法不能保證所選數(shù)據(jù)可以覆蓋數(shù)據(jù)集的所有分類(lèi)特征,這也是本文要進(jìn)一步研究的工作。
[1]Robertson G,Card SK,Mackinlay JD.The cognitive coprocessor architecture for interactive user interfaces.Proceedings of UIST'89,ACM Symposium on User Interface Software and Technology 1989,10-18.
[2]A.Inselberg and B. Dimsdale. Parallel coordinates:A tool for visualizing multidimensional geometry.Proc.of Visualization'90, pages 361-78,1990.
[3]劉新平,唐磊,金有海.擴(kuò)展隱層的誤差反傳訓(xùn)練算法研究[J].計(jì)算機(jī)集成制造系統(tǒng),2008,14(11):2284-2288.
[4]洪炳熔,金飛虎,高慶吉,基于蟻群算法的多層前饋神經(jīng)網(wǎng)絡(luò)[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2003,35(7):323-825.
[5]Colorni A,Dorigo M,Maniezzo V,et al. Distributed optimization by ant colonies[A].Proceedings of ECAL91(European Conference on Artificial Life)[C].Paris,France:1991:134-142.
[6]陸崚,沈潔,秦玲.蟻群算法求解連續(xù)空間優(yōu)化問(wèn)題的一種方法[J].軟件學(xué)報(bào),2002,13(12):2314-2323.
[7]黃翰,郝志峰,吳春國(guó),秦勇.蟻群算法的收斂速度分析[J].計(jì)算機(jī)學(xué)報(bào),2007,30(8):1344-1353.
[8]C.Zhang,W.Wu,X.H.Chen,Y.Xiong.Convergence of BP algorithm for product unit neural networks with exponential weights[J].Neurocomputing.2008,12,72:513-520.
[9]W.Wu,H.M.Shao,D.Qu,Strong convergence for gradient methods for BP networks training,in:Proceedings of the International Conference on Neural Networks and Brains,2005:332-334.