999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K—means算法的神經網絡文本分類算法研究

2014-04-29 15:26:09盧曼麗
中國管理信息化 2014年21期

盧曼麗

[摘 要] 本文在分析文本分類算法的一般模型和現有技術后,針對傳統神經網絡算法存在的問題,提出了一種引入K-means算法用于訓練RBF神經網絡的徑向基函數中心,改善誤差反向傳播(BP)神經網絡分類算法收斂速度較慢的缺點。實驗結果表明,改進后的RBF網絡與BP網絡、RBF網絡相比,在取得較好分類精度和召回率情況下,具有較高的運算速度和較強的非線性映射能力。

[關鍵詞] 文本分類;RBF神經網絡;K-means算法

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 21. 059

[中圖分類號] TP31 [文獻標識碼] A [文章編號] 1673 - 0194(2014)21- 0080- 03

1 引 言

現代社會信息量呈幾何級數增長,為了從海量的數據中找到自己需要的信息,提高檢索的效率,信息自動分類成為一個重要的工具。文本分類是信息自動分類的一個重要的研究領域。其目標是在分析文本內容的基礎上,將一個或多個適合的類別分配給文本,用以提高文本檢索、存儲等應用的處理效率[1]。目前在文本自動分類領域,已有大量傳統的分類方法應用其中,但各有其不足之處。如,樸素的貝葉斯方法(Navie Bayers)在數據屬性個數較多或屬性之間關聯性較大時,文本分類的效率低;決策樹方法對于處理缺失數據時較困難,會出現過度擬合問題,數據屬性間的相關性容易被忽略;傳統的支持向量機方法對于大規模訓練樣本難以實施[2];傳統的神經網絡在文本特征維數過多時會導致神經網絡收斂速度較慢[3]。因此,為找到一個執行效率、精確程度和召回率都相對理想的算法,本文提出一個結合K-means算法的神經網絡分類文本算法,改進了傳統神經網絡分類算法不易收斂的缺點,有了更高的運算速度和準確度。

2 文本分類的流程

文本分類指的是在已有的文本分類類別中,根據文本的內容將文本歸到相關分類。自動文本分類即將大量自然語言的文本按照訓練文本進行自動分門別類,有效地提高信息服務的質量。

一個典型的文本分類系統的流程是:對輸入文本進行預處理,然后抽取文本的特征詞條,利用分類中間結果訓練分類器,最后訓練分類器對新的未分類文本分門別類,達到自動分類輸出結果的目標。

訓練樣本的處理包含分詞、去停用詞。分詞的目的是將文本分割成一個個的詞語,我們采用中國科學院的漢語詞法分詞系統“ICTCLAS”做分詞處理。分詞完成后要進行去停用詞處理,即將對文本分類沒有貢獻的詞語剔除,如各種標點符號、數字、字母、“今天,今年”等這樣的詞語,這步操作的目標是減少文本特征向量的維數,提高運算的效率。實際操作時可以使用已有的成熟的幾個停用詞表進行遍歷比對,運算的時間會有些長。為了提高效率,使用布隆過濾器對文本操作,結果表明運算時間大大縮短。文本在經過分詞和去停用詞處理后,用向量空間模型來表示,如兩個文本D1和D2之間的內容式中,詞語W在文本di中出現的次數用N(W,di)來表示;|Dj|是所有的訓練文本數;|V|是所有訓練文本的總詞數;N(WS,di)是所有詞在所有訓練文本中出現頻率之和。互信息技術的結果越大,說明詞語W在類別Cj中特征明顯,可以作為類別Cj的特征屬性留在特征集中。

3 改進的神經網絡文本分類方法

RBF神經網絡又稱徑向基函數(Radical Basis Function)神經網絡。徑向基函數神經網絡是一種高效的前饋式神經網絡,由J.Moody和C.Darken在20世紀80年代末提出。它具有其他前向網絡所不具有的最佳逼近性能和全局最優特性,并且結構簡單,訓練速度快。同時,它也是一種可以廣泛應用于模式識別、自動控制、信號處理等領域的神經網絡模型。

RBF 神經網絡是典型前饋神經網絡,由輸入層、隱含層和輸出層三層神經元構成,如圖1。

第一層為輸入層節點,將輸入信號傳遞到隱含層;第二層為隱含層節點,激活函數由徑向基函數構成,如Gauss函數、反演S型函數等;第三層為輸出層節點,對隱含層輸出的單元應用線性函數。其中,第二層隱含層節點采用了徑向基函數模擬人類腦皮層中局部調節和交疊的感覺域的生物特性[4]。在相同逼近精度指標下, RBF 神經網絡具有唯一最佳逼近的特性,無局部最小問題存在,且可以根據輸入問題決定網絡結構,運算速度快。RBF神經網絡算法的基本思想是用徑向基函數作為隱含層的“基”,構成隱含層空間,并通過非線性函數將輸入節點的低維空間模型映射為高維空間模型,在高維空間模型中擬合曲線,找到最佳訓練數據。也就是說,對于隱含層的輸出加權求和,使得數據在高維空間內線性可分,從而極大地提高學習速度并避免局部最小問題。當訓練樣本的輸入數據是Xi時,實際產生的輸出是:Y(Xi)=wjφ(Xi,tj)。其中,假設輸出層只有一個隱含單元,訓練文本為{Xi,Zi}(i=1,2,…,I),Xi=[Xi1,xi2,…,xij]T為訓練樣本的輸入數據,Zi(i=1,2,…,I)為期望的輸出數據,實際輸出是Yi(i=1,2,…,I),第i個隱含層單元的輸出為徑向基函數φ(X,tj),徑向基函數的中心為tj=[tj1,tj2,…,tjm]T(j=1,2,…,J),第i個隱含層單元與輸出層單元的權值是wj(j=1,2,…,J)。

隱含層的徑向基函數采用非線性Gauss函數,如下:

φ(r)=exp

采用Gauss函數作為“基函數”任意階導數均存在,光滑性好,訓練樣本輸入的數據過多也不會增加復雜性。優點是表示形式簡單,解析性好,便于對結果進行分析。

輸出層對隱含層輸出的單元應用線性函數,增加一個偏移量wij,可表示為:

fj(x)=wijφi(x)

式中,j=1,2,…,J,表示輸出層神經元個數;H表示隱含層的神經元個數;x表示輸入層數據;wij表示隱含層第i個神經元和輸出層第j個神經元之間的權值。

徑向基函數中心的確定采用K-means算法。K-means算法也稱為K-均值或K-平均算法,是基于劃分的聚類算法中應用最廣泛的一種。算法的主要思想是給定要構建劃分的數目k,首先創建一個初始劃分,然后采用一種迭代的重定位技術,嘗試通過對象在劃分間移動來改進劃分。劃分的結果要讓每個聚類子集中的記錄最大程度的相似,不同聚類子集的記錄差異度盡可能大。K-means算法的基本思想是假設對n個記錄進行聚類,其結果要求產生k個聚類子集,算法的基本過程描述如下[5]:

(1)首先隨機地選擇k個記錄,每個記錄作為一個聚類的質心,分別代表將分成的k個聚類;

(2)將每個記錄分配到最近的質心,形成k個聚類;

(3)k個聚類分別重新計算質心;

(4)重復步驟2、3,直到聚類不再變化為止。

假設給定Ki={ti1,ti2,…,til},質心計算定義為:

mi=tij (m≤l)

個體間差異大小選擇歐氏距離(Euclidean距離)作為衡量的依據,它的定義如下:

d(i,j)=i,j∈{1,2,…,n}

這里(Xi1,Xi2,…,Xim)和(Xj1,Xj2,…,Xjm)是兩個m維的數據對象。

4 3種算法的效率比較

本文采用的語料庫為國家語委提供的現代漢語語料庫。文本分類器對其中3大類包含3 410 個文本樣本進行分類測試。首先對3 410個文本進行信息編碼,得到10 維的文本向量3 410 個,其中訓練樣本1 128 個,測試樣本為其余的2 282個。實驗環境為MATLAB 7.0,分別做BP 神經網絡算法實現、RBF 神經網絡算法實現和分類算法的核心采用K-means 算法的RBF神經網絡算法實現。文本分類效率的指標有精度、召回率與響應時間,本文將根據3個實驗的結果進行上述3個指標的比較。

精度為ri=li/ni,其中所有測試文本中,屬于第i類的文本個數為ni;li是實驗輸出的分類結果中為第i類且結果正確的文本個數。精度又稱為查準率。召回率pi=li /mi,其中mi是實驗輸出的分類結果中為第i類的文檔個數,li是經分類系統輸出分類結果為第i類且結果正確的文本個數。召回率又稱為查全率。可以看出,查準率和查全率存在相互制約的情況。使用泛指性較強的查詢語言可以提高查全率,但相應的,查準率下降;使用專業性較強的查詢語言可以提高查準率,但同時查全率下降。

3 410個10維的特征向量分別應用3個算法做了3個實驗,分類結果統計如表1所示。

主站蜘蛛池模板: 久久福利片| 国产亚卅精品无码| 一级福利视频| 国产高潮流白浆视频| 免费国产高清精品一区在线| 欧美在线一级片| 婷五月综合| 国产成人精品第一区二区| 国产成人精品一区二区免费看京| 在线va视频| 福利视频一区| 中文字幕有乳无码| 国产精品福利一区二区久久| 日韩最新中文字幕| 中文字幕欧美成人免费| 国产成人亚洲精品蜜芽影院| 国产在线视频导航| 一级毛片免费观看久| 亚洲AV电影不卡在线观看| 国产后式a一视频| 日本福利视频网站| 国产精品丝袜视频| 亚洲一区二区日韩欧美gif| 日韩视频福利| 亚洲国产综合精品一区| 成人在线视频一区| 精品91自产拍在线| 日日碰狠狠添天天爽| 永久免费无码日韩视频| 日韩无码黄色| 97国产精品视频自在拍| 五月婷婷伊人网| 无遮挡国产高潮视频免费观看| 成人福利在线观看| 国产精品2| 国产男人的天堂| 亚洲国产精品一区二区第一页免| 欧美一区日韩一区中文字幕页| 国产免费羞羞视频| 日韩成人在线网站| 波多野结衣视频网站| 三级毛片在线播放| 亚洲Av激情网五月天| 一区二区午夜| 伊人久久精品亚洲午夜| 伊人久久大香线蕉影院| 久久伊伊香蕉综合精品| 日韩福利在线观看| 91成人在线观看视频| 国产无码高清视频不卡| 57pao国产成视频免费播放| 国产成在线观看免费视频 | 四虎影视8848永久精品| 一级看片免费视频| 99草精品视频| 国产亚洲高清视频| 欧美亚洲国产一区| 91福利免费视频| av一区二区无码在线| 久久久久国产精品免费免费不卡| 精品夜恋影院亚洲欧洲| 中文字幕在线不卡视频| 久久精品娱乐亚洲领先| 91福利片| 精品一区二区三区中文字幕| 亚洲AV无码乱码在线观看裸奔| 亚洲天堂2014| 精品一区二区三区波多野结衣 | 99激情网| 国产欧美日韩免费| 91av国产在线| 久久永久视频| 91精品国产麻豆国产自产在线| 国产午夜无码专区喷水| 国产欧美在线视频免费| 一级毛片在线播放| 91视频99| 乱人伦99久久| 91色国产在线| 欧美精品亚洲二区| 国内老司机精品视频在线播出| 亚瑟天堂久久一区二区影院|