〔摘 要〕針對(duì)信息挖掘中的網(wǎng)頁自動(dòng)分類問題,提出了一種基于向量空間模型和并聯(lián)BP網(wǎng)絡(luò)的分類方法。該網(wǎng)絡(luò)由并行連接的多個(gè)子網(wǎng)絡(luò)組成,每個(gè)子網(wǎng)絡(luò)負(fù)責(zé)一類模式特征的提取,多個(gè)子網(wǎng)并行處理所有模式,將分類結(jié)果在總輸出層表現(xiàn)出來。以因特網(wǎng)上旅游網(wǎng)頁分類為例驗(yàn)證了該方法的有效性。
〔關(guān)鍵詞〕數(shù)據(jù)挖掘;網(wǎng)頁分類;神經(jīng)網(wǎng)絡(luò);學(xué)習(xí)算法
〔中圖分類號(hào)〕TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)05-0163-03
BP Neural Network and Its Application in
Web Document Automatic ClassificationZhu Xiuhua
(School of Further Education,Daqing Petroleum Institute,Daqing 163318,China)
〔Abstract〕Aiming to web document classification in data mining,a classification method is presented in this paper.The method is based on vector space model and parallel connection BP neural network.The model includes some parallel connecting sub-networks,each of which accounts for extracting a sort of pattern.Total sub-networks synchronously deal with all patterns,and present classification results in last output layer.The availability of model is proved by classification of some web documents in Internet.
〔Keywords〕data mining;web document classification;neural network;learning algorithm
文本分類是文本信息處理的一個(gè)重要研究領(lǐng)域,對(duì)提高文本檢索、文本存儲(chǔ)等應(yīng)用的處理效率有著重要意義。分類的目的是根據(jù)若干已知的規(guī)則,構(gòu)造一個(gè)分類函數(shù)或分類模型(也常稱作分類器),把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。如何提高文本分類器的識(shí)別率和推廣能力是這些方法面臨的共同問題[1]。目前,不少學(xué)者已提出了多種統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法,例如,Apte用決策樹技術(shù)來獲取分類器;Yang構(gòu)造了一種近鄰算法進(jìn)行分類;Lewis采用了一個(gè)線性分類器;Cohen設(shè)計(jì)了一種建立在權(quán)值更新基礎(chǔ)上的休眠專家算法[2]。人工神經(jīng)網(wǎng)絡(luò)理論(Artificial Neural Network)是80年代中后期世界范圍內(nèi)迅速發(fā)展起來的一個(gè)前沿研究領(lǐng)域。該理論作為人工智能的一個(gè)重要分支領(lǐng)域,已顯示了它活躍的生命力。近幾年來,有關(guān)人工神經(jīng)網(wǎng)絡(luò)理論的新的研究成果不斷涌現(xiàn),目前我國人工智能及其他相關(guān)學(xué)科領(lǐng)域的專家、學(xué)者在人工神經(jīng)元網(wǎng)絡(luò)理論和應(yīng)用研究方面做出了許多可喜的成績。除了在語言識(shí)別、自動(dòng)控制等領(lǐng)域應(yīng)用外,已有實(shí)踐證明,在文檔分類、聚類分析等信息挖掘領(lǐng)域也有著相當(dāng)高的實(shí)用價(jià)值[3]。基于向量空間模型的文檔分類方法,由于文檔特征向量維數(shù)一般較高(從幾十維到上百維),雖然理論上三層反傳播神經(jīng)網(wǎng)絡(luò)能夠逼近任意非線性映射,但普通反傳播神經(jīng)網(wǎng)絡(luò)對(duì)于高維映射問題往往收斂很慢,且容易發(fā)生過擬合現(xiàn)象,使泛化能力受到影響。針對(duì)這一問題,本文提出并聯(lián)BP神經(jīng)網(wǎng)絡(luò)模型用于解決文檔分類問題,該模型由多個(gè)子網(wǎng)并聯(lián)組成,每個(gè)子網(wǎng)負(fù)責(zé)一類模式。子網(wǎng)的輸入只與該類模式特征有關(guān),從而大大降低了文檔特征向量的維數(shù)。該模型既能分散網(wǎng)絡(luò)負(fù)載,也能加速收斂速度。以中國期刊網(wǎng)全文數(shù)據(jù)庫部分文檔數(shù)據(jù)為例進(jìn)行實(shí)驗(yàn),應(yīng)用結(jié)果表明了該方法的有效性。
1 文檔特征提取
特征提取是文檔分類系統(tǒng)中十分關(guān)鍵的問題,文檔分類特征選取恰當(dāng)與否對(duì)文檔分類的正確性和分類效率有重要影響。一個(gè)有效的特征項(xiàng)集,必須具備以下2個(gè)特征:(1)完全性,特征項(xiàng)能夠體現(xiàn)全部文檔內(nèi)容;(2)可區(qū)分性,根據(jù)特征項(xiàng)集,能將目標(biāo)文檔同其它文檔相區(qū)分。特征項(xiàng)集的構(gòu)造可從構(gòu)造每篇文檔的模糊特征項(xiàng)集開始。如何根據(jù)正文的語義提取可近似表示正文語義的特征項(xiàng)集是一個(gè)復(fù)雜問題,嚴(yán)格講除了要求理解正文的含義之外,尚需有總結(jié)概括的能力乃至有較深的領(lǐng)域知識(shí)才能較好地解決這個(gè)問題,這是難以用現(xiàn)有計(jì)算機(jī)技術(shù)來實(shí)現(xiàn)的。因此最好與語言學(xué)家們結(jié)合根據(jù)人類在抽取正文特征項(xiàng)時(shí)所遵循的一般原則進(jìn)行手工抽取。
1.1 特征項(xiàng)集的構(gòu)造
假設(shè)有P篇待分類文檔,特征項(xiàng)集的構(gòu)造可描述如下:
Step 1:首先對(duì)P篇文檔,進(jìn)行手工抽取特征項(xiàng),并記錄特征項(xiàng)的文檔頻數(shù)(特征項(xiàng)在文檔中出現(xiàn)的次數(shù)),構(gòu)造特征項(xiàng)集:1,2,…,P;然后對(duì)各特征項(xiàng)集進(jìn)行篩選,除去頻數(shù)過低的特征項(xiàng)。即根據(jù)給定閾值λ,濾除各篇文檔中頻數(shù)低于λ的特征項(xiàng),此時(shí)可以得到每篇文檔的特征項(xiàng)集合:C1,C2,…,CP
Step 2:在以上集合中,將特征項(xiàng)的同義詞、轉(zhuǎn)義詞、近義詞看作同一特征項(xiàng),計(jì)算P個(gè)集合的并集:C=C1∪C2∪…∪CP={T1,T2,…,TN},得到全部文檔的特征項(xiàng)集{T1,T2,…,TN}。具體算法:令C=C1,對(duì)征向量的構(gòu)造
以特征項(xiàng)集{T1,T2,…,TN}為論域,根據(jù)每個(gè)特征項(xiàng)在某一文檔中出現(xiàn)的頻數(shù)構(gòu)造該篇文檔的特征向量。另外,構(gòu)造特征向量時(shí)還應(yīng)考慮特征項(xiàng)的專指度。特征項(xiàng)的專指度可用文檔總數(shù)與含有該特征項(xiàng)的文檔數(shù)的比值表示。專指度過低的特征項(xiàng)會(huì)抑制分類的精確性。因此對(duì)于專指度較高的特征項(xiàng),應(yīng)適當(dāng)增加其文檔頻數(shù);而對(duì)于專指度較低的特征項(xiàng),則應(yīng)適當(dāng)減小其文檔頻數(shù)。具體構(gòu)造過程可描述如下:
Step 1:分別對(duì)P篇文檔,計(jì)算特征項(xiàng)集{T1,T2,…,TN}中每個(gè)特征項(xiàng)在該篇文檔中出現(xiàn)的文檔頻數(shù);
2 多子網(wǎng)并聯(lián)BP網(wǎng)絡(luò)模型
2.1 BP網(wǎng)絡(luò)模型
傳統(tǒng)BP網(wǎng)絡(luò)由輸入層、隱含層、輸出層組成。其突出特點(diǎn)是有很強(qiáng)的非線性映射能力和柔性的網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)的隱層數(shù)目及各層神經(jīng)元數(shù)可根據(jù)具體情況設(shè)定。網(wǎng)絡(luò)的響應(yīng)函數(shù)通常取Sigmoid函數(shù),信息正向傳遞,誤差反向傳播。經(jīng)多次循環(huán),將輸入信息逐漸逼近到期望輸出,完成學(xué)習(xí)功能[4]。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 三層BP網(wǎng)絡(luò)模型
設(shè)W為任意多層BP網(wǎng)絡(luò)的連接權(quán)值(包括閾值),即W=(w1,w2,…,wn),g(x)=1/(1+e-x)為非線性傳遞函數(shù)。樣本空間為(X,Y),X為樣本輸入,Y為樣本輸出(期望輸出)。誤差能量函數(shù)定義為:E=‖Yx-Y‖2,其中,‖#8226;‖為某一范數(shù),Yx為神經(jīng)網(wǎng)絡(luò)的實(shí)際輸出。由于當(dāng)樣本空間確定以后,E只是權(quán)值向量W的函數(shù),故上式可改寫為:E=E(W)。通常,訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的BP算法標(biāo)準(zhǔn)形式為[5]
2.2 多子網(wǎng)并聯(lián)BP網(wǎng)絡(luò)模型
該模型是傳統(tǒng)BP網(wǎng)絡(luò)模型的一種拓?fù)渥冃巍_@種模型的引入,主要是滿足多種辨識(shí)模式的精度需要。傳統(tǒng)BP網(wǎng)絡(luò)所有模式使用同一網(wǎng)絡(luò),而多子網(wǎng)并聯(lián)模型每種模式采用一個(gè)子網(wǎng)實(shí)現(xiàn)。這種網(wǎng)絡(luò)在模式的表達(dá)能力方面有所提高,但增加了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度。本文采用多子網(wǎng)并聯(lián)模型的主要目的是為了簡化文檔特征向量的輸入。換言之,每個(gè)子網(wǎng)負(fù)責(zé)一個(gè)文檔類別的特征獲取。這樣既分散了網(wǎng)絡(luò)負(fù)載,又提高了網(wǎng)絡(luò)精度。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
3 文檔分類實(shí)施方案
假設(shè)有P篇已知類別的文檔,分類實(shí)施方案的構(gòu)造過程可描述如下:
①實(shí)施特征抽取,構(gòu)造特征向量;
假設(shè)待分類模式共有n類,每類抽取m個(gè)特征項(xiàng),則模式空間為n維。記xkij為第i類中第j個(gè)特征項(xiàng)第k篇文檔中的文檔頻數(shù),編碼后的輸入向量如(3)式:
②初始化網(wǎng)絡(luò)參數(shù):子網(wǎng)數(shù)(n個(gè));子網(wǎng)輸入節(jié)點(diǎn)(m個(gè));誤差精度ε;學(xué)習(xí)速度α;慣性系數(shù)η;累計(jì)學(xué)習(xí)迭代次數(shù)s;最大學(xué)習(xí)迭代次數(shù)Max;
③初始化各子網(wǎng)隱層及輸出層權(quán)值和閥值(同普通BP網(wǎng)絡(luò));
④計(jì)算網(wǎng)絡(luò)輸出和分類誤差E;
⑤若(E<ε)或(s>Max)轉(zhuǎn)⑦;
⑥修正各層權(quán)值及閥值,s=s+1,轉(zhuǎn)④;
⑦輸出結(jié)果,訓(xùn)練結(jié)束。
上述經(jīng)過訓(xùn)練的網(wǎng)絡(luò)即可用于對(duì)未知類別文檔的分類識(shí)別。
4 實(shí)際應(yīng)用分析
我們以I(xiàn)nternet上旅游網(wǎng)頁作為分類文檔源,參考《中國分類主題詞表》中的分類情況,將旅游網(wǎng)頁分為如下8個(gè)子類別:(1)旅游景點(diǎn);(2)旅游指南;(3)旅行社;(4)賓館飯店;(5)租車服務(wù);(6)旅游交通;(7)海外旅游;(8)旅游綜合信息。考慮評(píng)價(jià)與測試文檔自動(dòng)分類算法需要兩個(gè)重要指標(biāo):查全率和查準(zhǔn)率,按下面公式計(jì)算類別Ci的查全率recal確分類為Ci類的文檔的數(shù)目;Cn為通過分類算法被分類為Ci類的文檔的數(shù)目。
對(duì)以上8個(gè)子類別通過Google.com網(wǎng)站搜索簡體中文網(wǎng)頁,構(gòu)造出規(guī)模為1 200個(gè)旅游類網(wǎng)頁的自動(dòng)分類樣本集,其中800個(gè)用作訓(xùn)練集,400個(gè)用作測試集。綜合考慮全部網(wǎng)頁的特征及類屬,共提取特征項(xiàng)64個(gè)(每類8個(gè))。每類的第一個(gè)特征項(xiàng)為類屬名稱。對(duì)全部1 200個(gè)網(wǎng)頁實(shí)施編碼處理。部分網(wǎng)頁編碼結(jié)果見表1。
對(duì)訓(xùn)練集自身的平均查全率和平均查準(zhǔn)率均達(dá)到了90%,網(wǎng)絡(luò)的分類結(jié)果如表2所示。
將訓(xùn)練好的網(wǎng)絡(luò)應(yīng)用于測試集400個(gè)網(wǎng)頁的分類,平均查全率和查準(zhǔn)率也均達(dá)到86%以上,與訓(xùn)練集分類結(jié)果較為相近,說明所抽取出的文檔類特征和類模式具有普遍性和有效性。關(guān)于此方法的有效性,我們與普通BP網(wǎng)絡(luò)作了對(duì)比。采用三層BP網(wǎng)絡(luò)結(jié)構(gòu),輸入層64個(gè)節(jié)點(diǎn),輸出層3個(gè)節(jié)點(diǎn)。當(dāng)隱層為80節(jié)點(diǎn)時(shí),迭代11 038次收斂,對(duì)測試集網(wǎng)頁的識(shí)別率僅為73%;當(dāng)隱層為100節(jié)點(diǎn)時(shí),迭代9 687次收斂,對(duì)測試集網(wǎng)頁的識(shí)別率降為62%。說明普通BP網(wǎng)絡(luò)對(duì)于高維樣本的分類問題,不僅收斂速度慢,而且容易產(chǎn)生過擬合現(xiàn)象,影響了網(wǎng)絡(luò)的泛化推廣能力。而應(yīng)用本文提出的模型就能較好的克服這些問題。
5 結(jié)束語
并聯(lián)BP神經(jīng)網(wǎng)絡(luò)是普通BP網(wǎng)絡(luò)在空間上的拓展,該模型對(duì)多個(gè)模式分類問題具有良好的適應(yīng)性。這種模型通過將高維輸入向量分段提交各個(gè)子網(wǎng)的方式,簡化了網(wǎng)絡(luò)運(yùn)算,提高了網(wǎng)絡(luò)的映射能力及泛化能力。實(shí)際上,由于該模型的實(shí)質(zhì)是分散了網(wǎng)絡(luò)負(fù)載,因此該模型不僅對(duì)于多模式分類問題有效,對(duì)于任何高維映射問題,都是有效的。當(dāng)全部樣本只有一類模式時(shí),該模型等價(jià)于普通BP網(wǎng)絡(luò)模型,因此,普通BP網(wǎng)絡(luò)可以看作是該模型的特例。本文應(yīng)用該模型在文檔分類問題上作了嘗試,有關(guān)該模型在其他方面的應(yīng)用是值得進(jìn)一步研究的問題。
參考文獻(xiàn)
[1]張新紅.用神經(jīng)網(wǎng)絡(luò)綜合評(píng)價(jià)模型評(píng)價(jià)高技術(shù)項(xiàng)目的投資風(fēng)險(xiǎn)[J].情報(bào)學(xué)報(bào),2001,20(5):608-611.
[2]周雪虹.新信息技術(shù)條件下成人高校圖書館員工的素質(zhì)教育[J].圖書館論壇,2003,23(1):49-51.
[3]魯明羽,李凡.基于權(quán)值調(diào)整的文本分類改進(jìn)方法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2003,(4):513-515.
[4]王偉.人工神經(jīng)網(wǎng)絡(luò)原理——入門與應(yīng)用[M].北京:北京航空航天大學(xué)出版,1995:38-43.
[5]Abhijit S.Pandya.神經(jīng)網(wǎng)絡(luò)模式識(shí)別極其實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,1999:58-69.