999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

BP神經(jīng)網(wǎng)絡(luò)在網(wǎng)頁自動(dòng)分類中的應(yīng)用

2009-04-29 00:00:00朱秀華
現(xiàn)代情報(bào) 2009年5期

〔摘 要〕針對(duì)信息挖掘中的網(wǎng)頁自動(dòng)分類問題,提出了一種基于向量空間模型和并聯(lián)BP網(wǎng)絡(luò)的分類方法。該網(wǎng)絡(luò)由并行連接的多個(gè)子網(wǎng)絡(luò)組成,每個(gè)子網(wǎng)絡(luò)負(fù)責(zé)一類模式特征的提取,多個(gè)子網(wǎng)并行處理所有模式,將分類結(jié)果在總輸出層表現(xiàn)出來。以因特網(wǎng)上旅游網(wǎng)頁分類為例驗(yàn)證了該方法的有效性。

〔關(guān)鍵詞〕數(shù)據(jù)挖掘;網(wǎng)頁分類;神經(jīng)網(wǎng)絡(luò);學(xué)習(xí)算法

〔中圖分類號(hào)〕TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)05-0163-03

BP Neural Network and Its Application in

Web Document Automatic ClassificationZhu Xiuhua

(School of Further Education,Daqing Petroleum Institute,Daqing 163318,China)

〔Abstract〕Aiming to web document classification in data mining,a classification method is presented in this paper.The method is based on vector space model and parallel connection BP neural network.The model includes some parallel connecting sub-networks,each of which accounts for extracting a sort of pattern.Total sub-networks synchronously deal with all patterns,and present classification results in last output layer.The availability of model is proved by classification of some web documents in Internet.

〔Keywords〕data mining;web document classification;neural network;learning algorithm

文本分類是文本信息處理的一個(gè)重要研究領(lǐng)域,對(duì)提高文本檢索、文本存儲(chǔ)等應(yīng)用的處理效率有著重要意義。分類的目的是根據(jù)若干已知的規(guī)則,構(gòu)造一個(gè)分類函數(shù)或分類模型(也常稱作分類器),把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。如何提高文本分類器的識(shí)別率和推廣能力是這些方法面臨的共同問題[1]。目前,不少學(xué)者已提出了多種統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法,例如,Apte用決策樹技術(shù)來獲取分類器;Yang構(gòu)造了一種近鄰算法進(jìn)行分類;Lewis采用了一個(gè)線性分類器;Cohen設(shè)計(jì)了一種建立在權(quán)值更新基礎(chǔ)上的休眠專家算法[2]。人工神經(jīng)網(wǎng)絡(luò)理論(Artificial Neural Network)是80年代中后期世界范圍內(nèi)迅速發(fā)展起來的一個(gè)前沿研究領(lǐng)域。該理論作為人工智能的一個(gè)重要分支領(lǐng)域,已顯示了它活躍的生命力。近幾年來,有關(guān)人工神經(jīng)網(wǎng)絡(luò)理論的新的研究成果不斷涌現(xiàn),目前我國人工智能及其他相關(guān)學(xué)科領(lǐng)域的專家、學(xué)者在人工神經(jīng)元網(wǎng)絡(luò)理論和應(yīng)用研究方面做出了許多可喜的成績。除了在語言識(shí)別、自動(dòng)控制等領(lǐng)域應(yīng)用外,已有實(shí)踐證明,在文檔分類、聚類分析等信息挖掘領(lǐng)域也有著相當(dāng)高的實(shí)用價(jià)值[3]。基于向量空間模型的文檔分類方法,由于文檔特征向量維數(shù)一般較高(從幾十維到上百維),雖然理論上三層反傳播神經(jīng)網(wǎng)絡(luò)能夠逼近任意非線性映射,但普通反傳播神經(jīng)網(wǎng)絡(luò)對(duì)于高維映射問題往往收斂很慢,且容易發(fā)生過擬合現(xiàn)象,使泛化能力受到影響。針對(duì)這一問題,本文提出并聯(lián)BP神經(jīng)網(wǎng)絡(luò)模型用于解決文檔分類問題,該模型由多個(gè)子網(wǎng)并聯(lián)組成,每個(gè)子網(wǎng)負(fù)責(zé)一類模式。子網(wǎng)的輸入只與該類模式特征有關(guān),從而大大降低了文檔特征向量的維數(shù)。該模型既能分散網(wǎng)絡(luò)負(fù)載,也能加速收斂速度。以中國期刊網(wǎng)全文數(shù)據(jù)庫部分文檔數(shù)據(jù)為例進(jìn)行實(shí)驗(yàn),應(yīng)用結(jié)果表明了該方法的有效性。

1 文檔特征提取

特征提取是文檔分類系統(tǒng)中十分關(guān)鍵的問題,文檔分類特征選取恰當(dāng)與否對(duì)文檔分類的正確性和分類效率有重要影響。一個(gè)有效的特征項(xiàng)集,必須具備以下2個(gè)特征:(1)完全性,特征項(xiàng)能夠體現(xiàn)全部文檔內(nèi)容;(2)可區(qū)分性,根據(jù)特征項(xiàng)集,能將目標(biāo)文檔同其它文檔相區(qū)分。特征項(xiàng)集的構(gòu)造可從構(gòu)造每篇文檔的模糊特征項(xiàng)集開始。如何根據(jù)正文的語義提取可近似表示正文語義的特征項(xiàng)集是一個(gè)復(fù)雜問題,嚴(yán)格講除了要求理解正文的含義之外,尚需有總結(jié)概括的能力乃至有較深的領(lǐng)域知識(shí)才能較好地解決這個(gè)問題,這是難以用現(xiàn)有計(jì)算機(jī)技術(shù)來實(shí)現(xiàn)的。因此最好與語言學(xué)家們結(jié)合根據(jù)人類在抽取正文特征項(xiàng)時(shí)所遵循的一般原則進(jìn)行手工抽取。

1.1 特征項(xiàng)集的構(gòu)造

假設(shè)有P篇待分類文檔,特征項(xiàng)集的構(gòu)造可描述如下:

Step 1:首先對(duì)P篇文檔,進(jìn)行手工抽取特征項(xiàng),并記錄特征項(xiàng)的文檔頻數(shù)(特征項(xiàng)在文檔中出現(xiàn)的次數(shù)),構(gòu)造特征項(xiàng)集:1,2,…,P;然后對(duì)各特征項(xiàng)集進(jìn)行篩選,除去頻數(shù)過低的特征項(xiàng)。即根據(jù)給定閾值λ,濾除各篇文檔中頻數(shù)低于λ的特征項(xiàng),此時(shí)可以得到每篇文檔的特征項(xiàng)集合:C1,C2,…,CP

Step 2:在以上集合中,將特征項(xiàng)的同義詞、轉(zhuǎn)義詞、近義詞看作同一特征項(xiàng),計(jì)算P個(gè)集合的并集:C=C1∪C2∪…∪CP={T1,T2,…,TN},得到全部文檔的特征項(xiàng)集{T1,T2,…,TN}。具體算法:令C=C1,對(duì)征向量的構(gòu)造

以特征項(xiàng)集{T1,T2,…,TN}為論域,根據(jù)每個(gè)特征項(xiàng)在某一文檔中出現(xiàn)的頻數(shù)構(gòu)造該篇文檔的特征向量。另外,構(gòu)造特征向量時(shí)還應(yīng)考慮特征項(xiàng)的專指度。特征項(xiàng)的專指度可用文檔總數(shù)與含有該特征項(xiàng)的文檔數(shù)的比值表示。專指度過低的特征項(xiàng)會(huì)抑制分類的精確性。因此對(duì)于專指度較高的特征項(xiàng),應(yīng)適當(dāng)增加其文檔頻數(shù);而對(duì)于專指度較低的特征項(xiàng),則應(yīng)適當(dāng)減小其文檔頻數(shù)。具體構(gòu)造過程可描述如下:

Step 1:分別對(duì)P篇文檔,計(jì)算特征項(xiàng)集{T1,T2,…,TN}中每個(gè)特征項(xiàng)在該篇文檔中出現(xiàn)的文檔頻數(shù);

2 多子網(wǎng)并聯(lián)BP網(wǎng)絡(luò)模型

2.1 BP網(wǎng)絡(luò)模型

傳統(tǒng)BP網(wǎng)絡(luò)由輸入層、隱含層、輸出層組成。其突出特點(diǎn)是有很強(qiáng)的非線性映射能力和柔性的網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)的隱層數(shù)目及各層神經(jīng)元數(shù)可根據(jù)具體情況設(shè)定。網(wǎng)絡(luò)的響應(yīng)函數(shù)通常取Sigmoid函數(shù),信息正向傳遞,誤差反向傳播。經(jīng)多次循環(huán),將輸入信息逐漸逼近到期望輸出,完成學(xué)習(xí)功能[4]。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 三層BP網(wǎng)絡(luò)模型

設(shè)W為任意多層BP網(wǎng)絡(luò)的連接權(quán)值(包括閾值),即W=(w1,w2,…,wn),g(x)=1/(1+e-x)為非線性傳遞函數(shù)。樣本空間為(X,Y),X為樣本輸入,Y為樣本輸出(期望輸出)。誤差能量函數(shù)定義為:E=‖Yx-Y‖2,其中,‖#8226;‖為某一范數(shù),Yx為神經(jīng)網(wǎng)絡(luò)的實(shí)際輸出。由于當(dāng)樣本空間確定以后,E只是權(quán)值向量W的函數(shù),故上式可改寫為:E=E(W)。通常,訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的BP算法標(biāo)準(zhǔn)形式為[5]

2.2 多子網(wǎng)并聯(lián)BP網(wǎng)絡(luò)模型

該模型是傳統(tǒng)BP網(wǎng)絡(luò)模型的一種拓?fù)渥冃巍_@種模型的引入,主要是滿足多種辨識(shí)模式的精度需要。傳統(tǒng)BP網(wǎng)絡(luò)所有模式使用同一網(wǎng)絡(luò),而多子網(wǎng)并聯(lián)模型每種模式采用一個(gè)子網(wǎng)實(shí)現(xiàn)。這種網(wǎng)絡(luò)在模式的表達(dá)能力方面有所提高,但增加了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度。本文采用多子網(wǎng)并聯(lián)模型的主要目的是為了簡化文檔特征向量的輸入。換言之,每個(gè)子網(wǎng)負(fù)責(zé)一個(gè)文檔類別的特征獲取。這樣既分散了網(wǎng)絡(luò)負(fù)載,又提高了網(wǎng)絡(luò)精度。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

3 文檔分類實(shí)施方案

假設(shè)有P篇已知類別的文檔,分類實(shí)施方案的構(gòu)造過程可描述如下:

①實(shí)施特征抽取,構(gòu)造特征向量;

假設(shè)待分類模式共有n類,每類抽取m個(gè)特征項(xiàng),則模式空間為n維。記xkij為第i類中第j個(gè)特征項(xiàng)第k篇文檔中的文檔頻數(shù),編碼后的輸入向量如(3)式:

②初始化網(wǎng)絡(luò)參數(shù):子網(wǎng)數(shù)(n個(gè));子網(wǎng)輸入節(jié)點(diǎn)(m個(gè));誤差精度ε;學(xué)習(xí)速度α;慣性系數(shù)η;累計(jì)學(xué)習(xí)迭代次數(shù)s;最大學(xué)習(xí)迭代次數(shù)Max;

③初始化各子網(wǎng)隱層及輸出層權(quán)值和閥值(同普通BP網(wǎng)絡(luò));

④計(jì)算網(wǎng)絡(luò)輸出和分類誤差E;

⑤若(E<ε)或(s>Max)轉(zhuǎn)⑦;

⑥修正各層權(quán)值及閥值,s=s+1,轉(zhuǎn)④;

⑦輸出結(jié)果,訓(xùn)練結(jié)束。

上述經(jīng)過訓(xùn)練的網(wǎng)絡(luò)即可用于對(duì)未知類別文檔的分類識(shí)別。

4 實(shí)際應(yīng)用分析

我們以I(xiàn)nternet上旅游網(wǎng)頁作為分類文檔源,參考《中國分類主題詞表》中的分類情況,將旅游網(wǎng)頁分為如下8個(gè)子類別:(1)旅游景點(diǎn);(2)旅游指南;(3)旅行社;(4)賓館飯店;(5)租車服務(wù);(6)旅游交通;(7)海外旅游;(8)旅游綜合信息。考慮評(píng)價(jià)與測試文檔自動(dòng)分類算法需要兩個(gè)重要指標(biāo):查全率和查準(zhǔn)率,按下面公式計(jì)算類別Ci的查全率recal確分類為Ci類的文檔的數(shù)目;Cn為通過分類算法被分類為Ci類的文檔的數(shù)目。

對(duì)以上8個(gè)子類別通過Google.com網(wǎng)站搜索簡體中文網(wǎng)頁,構(gòu)造出規(guī)模為1 200個(gè)旅游類網(wǎng)頁的自動(dòng)分類樣本集,其中800個(gè)用作訓(xùn)練集,400個(gè)用作測試集。綜合考慮全部網(wǎng)頁的特征及類屬,共提取特征項(xiàng)64個(gè)(每類8個(gè))。每類的第一個(gè)特征項(xiàng)為類屬名稱。對(duì)全部1 200個(gè)網(wǎng)頁實(shí)施編碼處理。部分網(wǎng)頁編碼結(jié)果見表1。

對(duì)訓(xùn)練集自身的平均查全率和平均查準(zhǔn)率均達(dá)到了90%,網(wǎng)絡(luò)的分類結(jié)果如表2所示。

將訓(xùn)練好的網(wǎng)絡(luò)應(yīng)用于測試集400個(gè)網(wǎng)頁的分類,平均查全率和查準(zhǔn)率也均達(dá)到86%以上,與訓(xùn)練集分類結(jié)果較為相近,說明所抽取出的文檔類特征和類模式具有普遍性和有效性。關(guān)于此方法的有效性,我們與普通BP網(wǎng)絡(luò)作了對(duì)比。采用三層BP網(wǎng)絡(luò)結(jié)構(gòu),輸入層64個(gè)節(jié)點(diǎn),輸出層3個(gè)節(jié)點(diǎn)。當(dāng)隱層為80節(jié)點(diǎn)時(shí),迭代11 038次收斂,對(duì)測試集網(wǎng)頁的識(shí)別率僅為73%;當(dāng)隱層為100節(jié)點(diǎn)時(shí),迭代9 687次收斂,對(duì)測試集網(wǎng)頁的識(shí)別率降為62%。說明普通BP網(wǎng)絡(luò)對(duì)于高維樣本的分類問題,不僅收斂速度慢,而且容易產(chǎn)生過擬合現(xiàn)象,影響了網(wǎng)絡(luò)的泛化推廣能力。而應(yīng)用本文提出的模型就能較好的克服這些問題。

5 結(jié)束語

并聯(lián)BP神經(jīng)網(wǎng)絡(luò)是普通BP網(wǎng)絡(luò)在空間上的拓展,該模型對(duì)多個(gè)模式分類問題具有良好的適應(yīng)性。這種模型通過將高維輸入向量分段提交各個(gè)子網(wǎng)的方式,簡化了網(wǎng)絡(luò)運(yùn)算,提高了網(wǎng)絡(luò)的映射能力及泛化能力。實(shí)際上,由于該模型的實(shí)質(zhì)是分散了網(wǎng)絡(luò)負(fù)載,因此該模型不僅對(duì)于多模式分類問題有效,對(duì)于任何高維映射問題,都是有效的。當(dāng)全部樣本只有一類模式時(shí),該模型等價(jià)于普通BP網(wǎng)絡(luò)模型,因此,普通BP網(wǎng)絡(luò)可以看作是該模型的特例。本文應(yīng)用該模型在文檔分類問題上作了嘗試,有關(guān)該模型在其他方面的應(yīng)用是值得進(jìn)一步研究的問題。

參考文獻(xiàn)

[1]張新紅.用神經(jīng)網(wǎng)絡(luò)綜合評(píng)價(jià)模型評(píng)價(jià)高技術(shù)項(xiàng)目的投資風(fēng)險(xiǎn)[J].情報(bào)學(xué)報(bào),2001,20(5):608-611.

[2]周雪虹.新信息技術(shù)條件下成人高校圖書館員工的素質(zhì)教育[J].圖書館論壇,2003,23(1):49-51.

[3]魯明羽,李凡.基于權(quán)值調(diào)整的文本分類改進(jìn)方法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2003,(4):513-515.

[4]王偉.人工神經(jīng)網(wǎng)絡(luò)原理——入門與應(yīng)用[M].北京:北京航空航天大學(xué)出版,1995:38-43.

[5]Abhijit S.Pandya.神經(jīng)網(wǎng)絡(luò)模式識(shí)別極其實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,1999:58-69.

主站蜘蛛池模板: 久久久久久尹人网香蕉| 国产黑丝视频在线观看| 无码'专区第一页| 久久国产免费观看| 91久久偷偷做嫩草影院| 久久精品中文字幕少妇| 国产亚洲视频免费播放| 男人天堂伊人网| 欲色天天综合网| 日韩久草视频| 国产自在线拍| 最新国产麻豆aⅴ精品无| 青青网在线国产| 国产爽妇精品| 国产jizz| 黄色网站在线观看无码| 操国产美女| 免费看a毛片| 欧美一级特黄aaaaaa在线看片| 91成人免费观看在线观看| 欧美不卡视频在线观看| 久久国产精品电影| 特级毛片免费视频| 色成人综合| 99久久精品免费看国产电影| 欧美一级在线播放| 国产精品亚洲αv天堂无码| 欧美精品色视频| 91福利一区二区三区| 97国产在线播放| 99在线观看免费视频| 国产特级毛片| 女人天堂av免费| 日韩国产高清无码| 99热最新网址| 欧美劲爆第一页| 激情综合网激情综合| 久久综合结合久久狠狠狠97色| 亚洲精品午夜无码电影网| 国产欧美精品一区二区| 国产又黄又硬又粗| 一级不卡毛片| 国产成人AV综合久久| 亚洲精品免费网站| AV老司机AV天堂| 国产成人精品一区二区不卡| 美女黄网十八禁免费看| 欧美日韩成人在线观看| 五月婷婷激情四射| 国产精品短篇二区| 国产av色站网站| 亚洲一级毛片免费观看| 精品99在线观看| 青青操视频在线| 无码 在线 在线| 欧美日韩国产在线播放| 欧美亚洲欧美区| 亚洲成人黄色在线| 免费a级毛片18以上观看精品| 欧美α片免费观看| 亚洲日韩Av中文字幕无码 | 成年免费在线观看| 国产成人亚洲欧美激情| 理论片一区| 亚洲精品卡2卡3卡4卡5卡区| 毛片基地视频| 97国产在线视频| 亚洲成年人网| 欧美午夜在线播放| 91九色视频网| 无码精品国产VA在线观看DVD| 国产网站免费观看| 国产特级毛片| 国产精品免费入口视频| yjizz视频最新网站在线| 国产精品一区二区国产主播| 青青操国产| 欧美啪啪网| 九月婷婷亚洲综合在线| 成人91在线| m男亚洲一区中文字幕| 亚洲最猛黑人xxxx黑人猛交|