張歡韻 李益才 藍(lán)章禮
摘 要: RFID采集的車輛信息可以識(shí)別營(yíng)運(yùn)車輛的運(yùn)行規(guī)律,采用這種方法能找出運(yùn)行規(guī)律類似營(yíng)運(yùn)車輛的私家車,并判定為疑似非法營(yíng)運(yùn)車輛。應(yīng)用SOM神經(jīng)網(wǎng)絡(luò)聚類時(shí),初始化網(wǎng)絡(luò)需要設(shè)置各種參數(shù)。為此,提出一種自適應(yīng)確定網(wǎng)絡(luò)訓(xùn)練次數(shù)的方法,利用權(quán)值導(dǎo)數(shù)來判斷是否停止訓(xùn)練。利用UCI數(shù)據(jù)集對(duì)傳統(tǒng)的和改進(jìn)后的網(wǎng)絡(luò)進(jìn)行測(cè)試并對(duì)比,發(fā)現(xiàn)改進(jìn)后的網(wǎng)絡(luò)優(yōu)于傳統(tǒng)網(wǎng)絡(luò)。最后,將改進(jìn)后的網(wǎng)絡(luò)用在車輛運(yùn)行規(guī)律識(shí)別中,得到預(yù)期的效果。
關(guān)鍵詞: SOM神經(jīng)網(wǎng)絡(luò); 網(wǎng)絡(luò)訓(xùn)練; 自適應(yīng); 聚類
中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2014)04-09-03
Abstract: The vehicle information collected by RFID could identify laws of the commercial vehicles' operation. Using this approach can find out private cars which have similar operation laws, and judge them as suspected illegal vehicles. When using SOM neural network to cluster, various parameters need to be set when initializing the network. A self-adaptive method is introduced for determining the network training times, which uses weights derivative to determine whether to stop training. After the test and comparison of the traditional and the improved network by taking advantage of UCI datasets, it turns out that the improved network is better than the traditional network. Finally, when the improved network is used in identification of the vehicle, an expected recognition results can be reached.
Key words: SOM neural network; network training; a self-adaptive method; cluster
0 引言
RFID技術(shù)作為一種新興的車輛監(jiān)控技術(shù),正在被廣泛地應(yīng)用于交通領(lǐng)域,重慶市目前正在建設(shè)全球最大規(guī)模的以UHF RFID技術(shù)為基礎(chǔ)的車聯(lián)網(wǎng),已建設(shè)RFID數(shù)據(jù)采集點(diǎn)300余處,給利用RFID數(shù)據(jù)來進(jìn)行非法營(yíng)運(yùn)車輛的識(shí)別提供了可能。項(xiàng)目前期已經(jīng)得到了模擬城市某點(diǎn)的RFID對(duì)各種機(jī)動(dòng)車輛仿真的數(shù)據(jù),其中包括營(yíng)運(yùn)車輛和非營(yíng)運(yùn)車輛。營(yíng)運(yùn)車輛包括:公交車、長(zhǎng)短途客運(yùn)車輛和出租車;非營(yíng)運(yùn)車輛是私家車。識(shí)別的任務(wù)就是找到非法的營(yíng)運(yùn)車輛。在識(shí)別過程中采用了SOM神經(jīng)網(wǎng)絡(luò)對(duì)各種車輛進(jìn)行聚類,從而識(shí)別運(yùn)行規(guī)律與營(yíng)運(yùn)車輛類似的私家車,并將其標(biāo)記為疑似非法營(yíng)運(yùn)車輛,提高交通行政執(zhí)法人員的目的性和執(zhí)法效率。
所謂自組織映射網(wǎng)絡(luò)(SOM)是由芬蘭學(xué)者Kohonen教授在1981年提出的,也稱作Kohonen網(wǎng)絡(luò)[1]。網(wǎng)絡(luò)通過把復(fù)雜、多維的輸入數(shù)據(jù)投射到一維或者二維的輸出空間來進(jìn)行對(duì)復(fù)雜數(shù)據(jù)的研究。SOM網(wǎng)絡(luò)的應(yīng)用和研究都非常廣泛,例如利用模糊概率SOM神經(jīng)網(wǎng)絡(luò)來進(jìn)行人臉識(shí)別[2],利用改進(jìn)的自組織網(wǎng)絡(luò)進(jìn)行概率密度估計(jì)與分類[3],設(shè)計(jì)自生長(zhǎng)的批處理SOM網(wǎng)絡(luò)以及確定它的停止條件[4],這里的停止條件是指獲勝者的近鄰加權(quán)平均失真誤差發(fā)生收斂時(shí)停止訓(xùn)練網(wǎng)絡(luò)等。
項(xiàng)目前期得到RFID點(diǎn)采集到的信息包含:車輛車牌號(hào)、車輛經(jīng)過時(shí)間和經(jīng)過地點(diǎn),再將數(shù)據(jù)導(dǎo)入SQL Sever數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)的預(yù)處理,處理后得到的數(shù)據(jù)包括:車輛車牌號(hào),統(tǒng)計(jì)周期內(nèi)的車輛平均通過時(shí)間、通過時(shí)間的方差、通過時(shí)間間隔、通過時(shí)間間隔的方差、通過頻次、高峰通過占比等相關(guān)信息,而后經(jīng)過PCA降維處理去掉不同維數(shù)據(jù)之間的相關(guān)性并剩下最終的六維數(shù)據(jù),將這六維數(shù)據(jù)作為網(wǎng)絡(luò)的輸入數(shù)據(jù)。
使用MATLAB神經(jīng)網(wǎng)絡(luò)工具箱[5]對(duì)SOM網(wǎng)絡(luò)進(jìn)行聚類時(shí)發(fā)現(xiàn),對(duì)SOM網(wǎng)絡(luò)的初始參數(shù)的確定有很多局限性,這些初始參數(shù)包括:網(wǎng)絡(luò)權(quán)值和閾值、訓(xùn)練次數(shù)、訓(xùn)練樣本的順序、學(xué)習(xí)率等[6-7],但目前暫時(shí)還沒有找到一種有效的方法來解決這些初始參數(shù)的設(shè)定問題。本論文對(duì)網(wǎng)絡(luò)的訓(xùn)練次數(shù)的設(shè)定方式進(jìn)行一些改進(jìn)。
1 論述
1.1 SOM網(wǎng)絡(luò)的基本模型及原理
SOM網(wǎng)絡(luò)由輸入層和輸出層構(gòu)成,輸入層是一維的神經(jīng)元,神經(jīng)元個(gè)數(shù)由輸入向量的維數(shù)i確定,表示網(wǎng)絡(luò)的輸入信號(hào);輸出層也是競(jìng)爭(zhēng)層,一般是一維或二維的神經(jīng)元組成的網(wǎng)絡(luò),其中每個(gè)神經(jīng)元表示不同的輸出模式。其連接方式如圖1所示。對(duì)于每一個(gè)輸出神經(jīng)元j,它和每一個(gè)輸入神經(jīng)元通過一個(gè)權(quán)值連接,這個(gè)權(quán)值組成的向量如式⑴:
其中i表示輸入向量的維數(shù),即輸入層的神經(jīng)元個(gè)數(shù),j表示第j個(gè)輸出神經(jīng)元,輸出層共包含M*N個(gè)輸出神經(jīng)元,如圖1所示為4輸入神經(jīng)元,4*4輸出神經(jīng)元構(gòu)成的SOM神經(jīng)網(wǎng)絡(luò)[5]。
SOM網(wǎng)絡(luò)的運(yùn)行分為訓(xùn)練和工作兩個(gè)階段[1]。訓(xùn)練階段,對(duì)網(wǎng)絡(luò)輸入數(shù)據(jù),輸出層將有某個(gè)神經(jīng)元產(chǎn)生最大的響應(yīng)而獲勝。獲勝神經(jīng)元周圍的神經(jīng)元也因此產(chǎn)生較大的響應(yīng),于是將獲勝神經(jīng)元及其領(lǐng)域(以某種方式定義的一個(gè)獲勝神經(jīng)元周圍的區(qū)域)內(nèi)的所有神經(jīng)元以某種方式將其權(quán)值向量進(jìn)行修改。網(wǎng)絡(luò)通過自組織方式,用輸入數(shù)據(jù)調(diào)整網(wǎng)絡(luò)權(quán)值,最后使輸出層各神經(jīng)元的權(quán)值向量成為某類的聚類中心,確定好后訓(xùn)練結(jié)束。網(wǎng)絡(luò)訓(xùn)練結(jié)束后,輸出層各神經(jīng)元與輸入模式的特定關(guān)系就完全確定了,因此可以工作了,當(dāng)輸入一個(gè)模式時(shí),網(wǎng)絡(luò)輸出層代表該模式的特定神經(jīng)元會(huì)產(chǎn)生最大的響應(yīng),在所有神經(jīng)元中競(jìng)爭(zhēng)成功,從而自動(dòng)將該輸入歸類。
在訓(xùn)練階段,訓(xùn)練次數(shù)需要根據(jù)經(jīng)驗(yàn)并反復(fù)對(duì)比確定一個(gè)合理的值,但對(duì)于一個(gè)陌生的問題,并不能夠在短時(shí)間內(nèi)很好地確定訓(xùn)練次數(shù)的最佳值,若訓(xùn)練次數(shù)設(shè)定過小,可能造成訓(xùn)練不充分而使得到的結(jié)果正確率不高;若訓(xùn)練次數(shù)過多,又會(huì)造成訓(xùn)練過度而使結(jié)果不準(zhǔn)確,且會(huì)浪費(fèi)大量的時(shí)間。故訓(xùn)練次數(shù)確定過程很繁瑣,不夠簡(jiǎn)便,而且確定最佳訓(xùn)練次數(shù)時(shí) 花費(fèi)的時(shí)間較多,針對(duì)這個(gè)問題本文提出了一種解決方法。
1.2 SOM神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程
傳統(tǒng)SOM神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程主要包括以下幾步驟[6]:
⑴ 初始化網(wǎng)絡(luò):首先確定輸出神經(jīng)元的數(shù)目,二維的輸出矩陣可以表示為M*N,往往要比預(yù)測(cè)的聚類數(shù)目多,初始化權(quán)值向量如式⑵:
⑵ 確定獲勝神經(jīng)元:對(duì)于每一個(gè)訓(xùn)練樣本x,使用最小歐式距離準(zhǔn)則來尋找離樣本向量最近的神經(jīng)元c,作為獲勝神經(jīng)元,并把它添加到該獲勝神經(jīng)元的類型VC中。決策條件如式⑶:
⑶ 更新權(quán)值:對(duì)優(yōu)勝鄰域內(nèi)所有節(jié)點(diǎn)按照式⑷
來調(diào)整權(quán)值。其中學(xué)習(xí)率η(t,N)是訓(xùn)練時(shí)間t和鄰域內(nèi)第j個(gè)神經(jīng)元與獲勝神經(jīng)元之間的拓?fù)渚嚯xN的函數(shù),且η隨著t和N的增加減小。
⑷ 檢查結(jié)束:SOM網(wǎng)絡(luò)的訓(xùn)練是以學(xué)習(xí)率η(t)是否減小到0或某個(gè)特定的值,或者訓(xùn)練次數(shù)t是否達(dá)到某一設(shè)定的值為條件,滿足這個(gè)條件就退出訓(xùn)練,否則繼續(xù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,返回步驟⑵。
1.3 SOM網(wǎng)絡(luò)的改進(jìn)
在SOM的訓(xùn)練過程中,權(quán)值一開始是一系列的隨機(jī)的小數(shù),隨著訓(xùn)練過程的進(jìn)行,權(quán)值不停地改變,更加靠近每一個(gè)輸出神經(jīng)元的聚類中心,直到達(dá)到一個(gè)設(shè)定的訓(xùn)練次數(shù)或?qū)W習(xí)率衰減到一定的值。但設(shè)定的訓(xùn)練次數(shù)往往需要多次實(shí)驗(yàn)才能確定;而學(xué)習(xí)率最后衰減的閾值需要靠經(jīng)驗(yàn)來確定,如果設(shè)定為0,會(huì)使網(wǎng)絡(luò)陷入亞穩(wěn)定狀態(tài)[1],設(shè)置合適的閾值需要適應(yīng)不同的實(shí)際情況。故提出一種利用權(quán)值導(dǎo)數(shù)來判斷何時(shí)該停止訓(xùn)練的方法。
每個(gè)神經(jīng)元都代表一個(gè)聚類中心,而在傳統(tǒng)的聚類過程中,類中心是隨著聚類的過程不斷地靠近每一類數(shù)據(jù)中心,而在SOM神經(jīng)網(wǎng)絡(luò)中,聚類中心的表征形式又是各個(gè)輸出神經(jīng)元的權(quán)值向量[Wj1,Wj2,…,Wji](j=1,2,…,M*N),所以定義每一次訓(xùn)練后權(quán)值的變化,如式⑸:
來表示類中心的變化情況。其中其中Wn表示當(dāng)前訓(xùn)練后的權(quán)值,Wn-1表示前一次訓(xùn)練后的權(quán)值,ΔW是一個(gè)i*j維的向量。其中i是輸入神經(jīng)元的個(gè)數(shù),j是輸出神經(jīng)元的個(gè)數(shù)M*N。
權(quán)值變化量ΔW的一范數(shù)如式⑹:
一范數(shù)即為列模,這里符合權(quán)值的定義,每一列代表一個(gè)聚類中心,ΔW的一范數(shù)就是變化最大的類中心的變化量。最終的目的即判斷在訓(xùn)練次數(shù)為何值時(shí)權(quán)值W收斂。采用函數(shù)值的下降量充分小[8]為收斂準(zhǔn)則,即最大的類中心變化值‖ΔW‖1小于某一給定值ε時(shí),即:
來判斷收斂。ε為事先給定的收斂條件。
在網(wǎng)絡(luò)的訓(xùn)練過程中,學(xué)習(xí)率仍采用SOM網(wǎng)絡(luò)經(jīng)典的函數(shù),即指數(shù)函數(shù),這里所用的是:
2 實(shí)驗(yàn)
為了評(píng)估訓(xùn)練次數(shù)自適應(yīng)的SOM改進(jìn)算法對(duì)網(wǎng)絡(luò)性能的影響[10],本文對(duì)改進(jìn)算法與傳統(tǒng)算法進(jìn)行了對(duì)比分析。采用UCI數(shù)據(jù)集對(duì)數(shù)據(jù)進(jìn)行測(cè)試,分別采用了八個(gè)數(shù)據(jù)集,包括Wine、Breast_Cancer、Iris、Zoo、Car_Evaluation、Abalone、bupa、segment數(shù)據(jù)集的基本信息和對(duì)應(yīng)的輸出網(wǎng)絡(luò)模型設(shè)置見表1,并對(duì)照MATLAB中傳統(tǒng)的SOM網(wǎng)絡(luò)[5]進(jìn)行仿真結(jié)果如表2所示,其中在MATLAB中默認(rèn)的訓(xùn)練次數(shù)為200次。
經(jīng)過測(cè)試可以看到,改進(jìn)后的SOM網(wǎng)絡(luò)能夠比matlab中傳統(tǒng)SOM網(wǎng)絡(luò)(默認(rèn)訓(xùn)練200次)識(shí)別的正確率高。
把改進(jìn)后的SOM神經(jīng)網(wǎng)絡(luò)用在車輛類型識(shí)別中的效果如圖2所示,其中綠色的為私家車數(shù)據(jù),黑色為非法營(yíng)運(yùn)車輛數(shù)據(jù),紅色為公交車數(shù)據(jù),藍(lán)色為長(zhǎng)途車數(shù)據(jù)。
該網(wǎng)絡(luò)輸出矩陣設(shè)置為7*7的矩陣,經(jīng)過若干次自適應(yīng)的迭代,得到的聚類結(jié)果如圖3所示。
可以看到營(yíng)運(yùn)車輛被聚到一類,綠色的合法私家車均勻的散布在輸出矩陣中,非法營(yíng)運(yùn)的私家車被聚到營(yíng)運(yùn)車一類。將這些疑似營(yíng)運(yùn)車輛的私家車提供給執(zhí)法部門,能夠給執(zhí)法人員提供一些線索和依據(jù)。
3 結(jié)束語
本文提出了一種運(yùn)用在SOM網(wǎng)絡(luò)中利用導(dǎo)數(shù)判斷收斂的算法,該算法能夠自適應(yīng)確定SOM網(wǎng)絡(luò)無監(jiān)督訓(xùn)練時(shí)的迭代次數(shù),縮短確定訓(xùn)練次數(shù)所花費(fèi)的時(shí)間,減小算法復(fù)雜度。經(jīng)過實(shí)驗(yàn)驗(yàn)證,在不降低正確率的情況下通過該算法可以減少手動(dòng)確定訓(xùn)練次數(shù)的過程;并與MATLAB中傳統(tǒng)的SOM神經(jīng)網(wǎng)絡(luò)工具箱相對(duì)比,其中默認(rèn)的訓(xùn)練次數(shù)是200次,從表2中可以看到改進(jìn)后的網(wǎng)絡(luò)比默認(rèn)參數(shù)的神經(jīng)網(wǎng)絡(luò)識(shí)別正確率高。利用改進(jìn)后的網(wǎng)絡(luò)對(duì)經(jīng)過特征數(shù)據(jù)提取之后的RFID數(shù)據(jù)進(jìn)行聚類,能夠達(dá)到預(yù)期結(jié)果。
參考文獻(xiàn):
[1] Samarasinghe.s. Neural Networks for Appeied Sciences and Engineering:From Fundamentals to Complex Pattern Recognition[M].Beijing:Mechanical industry press,2009.7.
[2] Laura Lanzarini, Franco Ronchetti, Cesar Estrebou, Luciana Lens Aurelio Fern' andez Bariviera,F(xiàn)ace recognition based on fuzzy probabilistic SOM[J]. IFSA World Congress and NAFIPS Annual Meeting (IFSA/NAFIPS),2013.
[3] Lin Chang, Yu Chong-xiu, Modified Self-Organizing Mixture Network for Probability Density Estimation and Classification[J].Neural Networks (IJCNN), The 2013 International Joint Conference on,2013.
[4] Se Won Kim, Tang Van To. A Self-Growing and Self-Organizing Batch Map with Automatic Stopping Condition[J].2013 5th International Conference on Knowledge and Smart Technology (KST),2013.
[5] 張德豐等.MATLAB神經(jīng)網(wǎng)絡(luò)應(yīng)用設(shè)計(jì)[M].機(jī)械工業(yè)出版社,2011.
[6] 周開利,康耀紅.神經(jīng)網(wǎng)絡(luò)模型及其MATLAB仿真程序設(shè)計(jì)[M].清華大學(xué)出版社,2005.
[7] 任軍號(hào),吉沛琦,耿躍.SOM神經(jīng)網(wǎng)絡(luò)改進(jìn)及在遙感圖像分類中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2011.3.
[8] 陳寶林.最優(yōu)化理論與算法[M].清華大學(xué)出版社,2005.
[9] Apirak Jirayusakul. Improve the SOM Classifier with the Fuzzy Integral Technique[J].Ninth International Conference on ICT and Knowledge Engineering,2011.
[10] Juha Vesanto, Johan Himberg, Esa Alhoniemi and Juha Parhankangas, Self-organizing map in Matlab: the SOM Toolbox[J].Proceedings of the Matlab DSP Conference,1999.
[11] Chen Weijun,Li Xiao. An Improved Solution of SOM Network Anomaly Detection Based on T-Distribution[J].International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery,2011.